微新创想:2026年4月3日,谷歌宣布更新Gemini API计费模式,推出标准、弹性、优先、批量和缓存五档推理服务。此次调整旨在满足不同用户对性能与成本的差异化需求,提供更加灵活和高效的计费方案。
新方案采用按实际推理使用分档计费的方式,让用户能够根据具体应用场景选择最合适的计费模式。其中,弹性档和批量档提供了五折优惠,适用于对响应时间要求相对宽松的业务场景。弹性档的延迟范围为1至15分钟,而批量档的延迟最长可达24小时,适合处理非实时但需要大量计算的任务。
缓存档则根据缓存的Token数量和存储时长进行计费,为用户提供了一种优化成本的方式。通过合理利用缓存机制,用户可以在不影响性能的前提下降低整体使用成本,提升资源利用率。
优先档作为最高性能等级,其价格相比标准档溢价75%至100%。该档位的延迟控制在毫秒至秒级,能够满足对实时性要求极高的应用需求。例如,在实时客服、欺诈检测、金融交易等关键业务场景中,优先档可以确保快速准确的响应,从而提升用户体验和系统稳定性。
此次计费模式的更新不仅优化了成本结构,还增强了服务的灵活性,使不同规模和需求的企业能够更高效地使用Gemini API,实现资源的最优配置。
