近日,腾讯优图实验室正式宣布开源其最新研发的文本表示模型——Youtu-Embedding,这款创新模型专为提升企业级智能客服与知识库管理效率而生。在当前大模型应用中,领域特定场景下的误导性生成问题日益凸显,尤其是在企业级应用中,当用户提出专业问题时,模型往往基于通用语料生成不相关的答案。Youtu-Embedding的出现,正是为了解决这一行业痛点,有效应对模型在不同领域表现不佳的挑战。
该模型在通用语料上经过深度训练,但针对法律、医疗等专业领域应用效果欠佳的问题,腾讯优图实验室从零开始构建了Youtu-Embedding。模型依托高达3万亿Token的中英文语料库,为语言理解能力奠定了坚实基础。同时,腾讯还提供了丰富的人工标注数据,确保模型在真实业务场景中的高度适用性。
为精准捕捉用户真实意图,腾讯引入了大规模弱监督训练技术。这种先进的训练方式使Youtu-Embedding能够识别不同表述但相似意图的句子,在语义空间中建立准确的映射关系。例如,当用户询问“这款产品保修多久?”或“坏了可以免费修吗?”时,尽管表达方式各异,但核心诉求均为保修政策。这一能力显著提升了模型在复杂场景下的理解精准度。
在多任务训练方面,腾讯优图实验室设计了一套创新的微调框架。模型采用统一的数据格式与差异化的损失函数,有效增强了文本相似度、检索和分类等任务的处理能力。同时,动态采样机制确保模型在训练过程中合理分配精力,实现各类任务的均衡发展。
Youtu-Embedding的卓越性能已得到权威验证。在中文语义评测基准CMTEB上,该模型取得了77.46的高分,成为表现最优秀的中文语义模型之一。其广泛适用于智能问答、内容推荐、知识管理等多元场景,尤其在构建检索增强生成系统(RAG)中展现出巨大潜力。
作为腾讯优图实验室开源技术战略的重要组成部分,Youtu-Embedding的推出不仅为企业级应用提供了强大工具,还与Youtu-Agent、Youtu-GraphRAG等开源项目形成互补,共同构建完善的AI应用生态。腾讯优图实验室将持续深耕开源技术领域,为开发者提供更多优质资源,推动AI应用快速发展。
项目地址:https://github.com/TencentCloudADP/youtu-embedding
核心亮点:
🌟 Youtu-Embedding是腾讯开源的文本表示模型,专注于提升企业智能客服与知识库管理效率
🔍 通过大规模弱监督训练和多任务协同进化,显著增强用户意图理解能力
📈 在中文语义评测基准CMTEB上斩获77.46高分,彰显卓越性能与应用潜力