2023年7月15日凌晨1点,谷歌正式推出全球首款Gemini嵌入模型,在多文本嵌入基准测试平台(MTEB)上以惊人的68.37分遥遥领先,大幅超越OpenAI的58.93分,这一突破性成绩不仅彰显了谷歌在嵌入技术领域的绝对领先优势,更为独立创作者和自由职业者带来了前所未有的经济实惠选择——Gemini嵌入模型的使用成本仅为每百万token 0.15美元,堪称业界良心。
Gemini嵌入模型的卓越性能经过全面验证,在双语挖掘、分类、聚类、指令检索、多标签分类、配对分类、重排、检索和语义文本相似性等九大核心任务中均表现突出,堪称当前嵌入模型的王者级存在。其强大的多语言处理能力使其在全球范围内具有无限应用潜力,尤其对于非英语母语用户群体而言,Gemini嵌入模型将带来更加流畅自然的交互体验。
在模型架构设计上,Gemini嵌入模型基于双向Transformer编码器架构,完美继承了Gemini模型的双向注意力机制,充分发挥了其预训练阶段积累的语言理解能力。该模型在32层Transformer基础架构上创新性地添加了池化层,通过均值池化策略有效聚合输入序列的每个token嵌入,最终生成具有高度代表性的单一嵌入向量,显著提升了模型的适应性和泛化能力。
训练方法与数据质量控制方面,Gemini嵌入模型采用了多阶段训练策略,分为预微调和精调两个关键阶段。预微调阶段利用海量Web语料库数据进行训练,主要目标是将模型参数从自回归生成任务成功迁移至编码任务。精调阶段则针对特定任务数据进行深度优化,确保模型在检索、分类、聚类等任务中都能发挥最佳性能。为保障数据质量,研究团队独创了合成数据生成策略,并借助Gemini模型的强大能力对训练数据进行实时过滤,有效剔除低质量样本,从而确保模型训练的有效性和稳定性。
Gemini嵌入模型的发布标志着谷歌在嵌入技术领域迈出了历史性一步,显著增强了其在全球人工智能领域的竞争力。随着这一模型的广泛应用,预计将全面推动搜索、个性化推荐等领域的创新升级,为用户带来更加智能化的服务体验。如需进一步了解或体验Gemini嵌入模型,可访问官方地址https://aistudio.google.com/prompts/new_chat,或查阅详细技术解读https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/。