
谷歌本周正式发布了其原生音频模型 Gemini2.5Flash Native Audio 的重大升级版本,标志着 AI 交互技术迈入全新阶段。此次更新核心突破在于”原生处理能力”的突破性应用,彻底改变了传统 AI 需要先语音转文字再处理的繁琐模式。新模型能够直接感知声音中的语调变化、情感波动和自然停顿,从而实现前所未有的拟人化实时交流体验。
根据谷歌公布的最新数据,新版本对开发者指令的遵循率已实现从84%到90%的显著跃升。在处理复杂的多步骤工作流时,其精准度也大幅提升。在权威音频基准测试 ComplexFuncBench 中,Gemini2.5Flash Native Audio 函数调用准确率高达71.5%,大幅超越OpenAI gpt-realtime(66.5%)的同类表现,在实时语音代理领域展现出强大的技术竞争力。

目前这项革命性技术已全面接入多个谷歌AI平台,包括Google AI Studio、Vertex AI、Gemini Live以及Search Live等核心服务。开发者现在可以通过 Gemini API 直接体验升级版模型,充分利用其更强的对话一致性表现和卓越的多轮记忆能力,轻松构建出既可靠又富有情绪感知力的新一代AI助手。这一突破将为智能客服、虚拟助手等应用场景带来质的飞跃,开启人机交互的全新纪元。
