谷歌Gemini API新定价策略五档推理服务详解

2026-04-03 15:27:15 快讯 2 次阅读

微新创想：2026年4月3日，谷歌宣布更新Gemini API计费模式，推出标准、弹性、优先、批量和缓存五档推理服务。此次调整旨在满足不同用户对性能与成本的差异化需求，提供更加灵活和高效的计费方案。

新方案采用按实际推理使用分档计费的方式，让用户能够根据具体应用场景选择最合适的计费模式。其中，弹性档和批量档提供了五折优惠，适用于对响应时间要求相对宽松的业务场景。弹性档的延迟范围为1至15分钟，而批量档的延迟最长可达24小时，适合处理非实时但需要大量计算的任务。

缓存档则根据缓存的Token数量和存储时长进行计费，为用户提供了一种优化成本的方式。通过合理利用缓存机制，用户可以在不影响性能的前提下降低整体使用成本，提升资源利用率。

优先档作为最高性能等级，其价格相比标准档溢价75%至100%。该档位的延迟控制在毫秒至秒级，能够满足对实时性要求极高的应用需求。例如，在实时客服、欺诈检测、金融交易等关键业务场景中，优先档可以确保快速准确的响应，从而提升用户体验和系统稳定性。

此次计费模式的更新不仅优化了成本结构，还增强了服务的灵活性，使不同规模和需求的企业能够更高效地使用Gemini API，实现资源的最优配置。

2026年04月03日

16:37