Skip to content
星际流动

Google Gemini API 推出 Flex 和 Priority 推理层级,平衡成本与可靠性

发布
采集
工程实践 6.5 分 — Google 为 Gemini API 引入 Flex 和 Priority 两种推理模式,为开发者提供更灵活的成本控制选项
原文: Google Blog

评分 6.5 · 来源:Google Blog · 发布于 2026-04-03

评分依据:Google 为 Gemini API 引入 Flex 和 Priority 两种推理模式,为开发者提供更灵活的成本控制选项

Google 为 Gemini API 引入两种新的推理层级:Flex 模式提供更低的成本但可能接受更高的延迟和偶尔的不可用,适合批处理和非实时场景;Priority 模式确保高可靠性和低延迟,适合生产环境的关键请求。开发者可以根据应用场景灵活选择,有效控制 API 调用成本。


标签: