Salesforce新AI模型XGen-7B超越Meta LLaMA 在长序列数据分析中表现亮眼

2023-07-05 08:21:26 互联网 46 次阅读

微新创想（Idea2003.com）7月4日消息：随着人工智能工具应用的日益广泛，企业对能够高效处理多样化任务的智能系统的需求正持续攀升。拥有ChatGPT或Bard等先进聊天界面，能够对长篇文档进行精准摘要或深度挖掘客户数据以提炼商业洞察，已成为企业提升运营效率的关键。然而，要实现这些高级功能，AI模型必须经过海量数据的严格训练。尽管许多企业出于成本考量选择了参数量更小、经济性更高的模型，但这类模型在处理复杂任务时往往力不从心。以Meta的LLaMA、Falcon-7B和MPT-7B等开源模型为例，其最大序列长度仅约2000个token，难以胜任对冗长非结构化数据如文件内容的深度分析。为突破这一瓶颈，Salesforce推出了创新的大型语言模型XGen-7B，该模型经过长达8000个token序列的训练，显著提升了处理海量文档输入的能力，总处理量高达1.5万亿个token。Salesforce的研究团队采用自研的JaxFormer框架及公共领域的高质量教学数据，成功训练出这一参数量达70亿的模型。在性能表现上，XGen-7B与LLaMA、Falcon和Redpajama等主流开源模型相比，实现了并跑甚至超越的优异成果。据SalesforceAI研究人员透露，借助Google Cloud的TPU-v4云计算平台，在1万亿个token规模上完成模型训练的投入仅为15万美元，展现出极高的性价比。XGen-7B基准测试表现卓越在多项权威基准测试中，XGen-7B的表现令人瞩目，在多个关键指标上超越了备受青睐的开源大型语言模型。在”Measuring Massive Multitask Language Understanding（MMLU）”基准测试中，XGen在四个测试类别中的三个取得了最高分，其加权平均分同样位居首位。仅在人文领域测试中，Meta的LLaMA表现略胜一筹。在零样本测试环节，XGen同样表现出色，虽在人文领域仍稍逊于LLaMA，但在整体零样本测试中仅在”TruthfulQA”基准测试中落后于其他模型。在ARC_ch、Hella Swag和Winogrande等基准测试中，LLaMA表现更优，但在代码生成任务上，XGen以14.20的pass@1指标成绩，大幅领先LLaMA（10.38）及其他竞争模型。特别是在处理长序列任务时，Salesforce的AI模型展现出压倒性优势，在SCROLLS基准测试的QMSum和GovReport数据集上均获得高分。不过研究团队特别指出，由于XGen模型未使用相同的教学数据进行训练，因此与同类模型存在可比性差异。XGen-7B系列模型详解Salesforce研究团队开发了三个不同配置的XGen-7B模型：XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。XGen-7B-4K-base可处理8000亿个上下文token，采用两阶段训练策略，先在2000个token规模数据上训练，再扩展至4000个token。该模型遵循Apache-2.0许可协议，允许衍生作品采用不同许可方式分发，但原始组件必须保留Apache2.0许可。XGen-7B-8K-base在4K-base基础上增加3000亿token处理能力，总上下文理解能力达到1.5万亿个token，同样采用Apache-2.0许可。XGen-7B-inst则基于公共领域教学数据（包括databricks-dolly-15k、oasst1、Baize及GPT相关数据集）进行微调，在4000和8000个token规模上训练，主要用于研究目的。模型训练采用创新的两阶段策略，每个阶段使用不同数据组合。团队表示：”在C4数据处理中，我们整合了6个Common Crawl转储，通过保留各URL文档的最新版本实现跨转储去重，并构建线性分类模型将数据分为维基百科类文档和随机文档，最终选取前20%的维基百科类文档。”随后将Salesforce与Hugging Face联合开发的代码生成模型Starcoder纳入训练，其核心数据与前一阶段成果混合。模型采用OpenAI的tiktoken进行token化，并额外添加连续空白和制表符token。XGen-7B的局限性尽管训练出了一系列高性能AI模型，XGen系列仍存在改进空间。Salesforce指出，该模型在生成内容时仍可能出现事实性偏差问题。关于XGen-7B的更多技术细节，Salesforce已在官方博客发布详尽文章。模型代码库托管于GitHub，预训练检查点可在Hugging Face平台获取。上下文长度的重要性能够理解更长输入的模型对企业应用具有革命性意义。Salesforce研究人员强调，海量上下文数据使预训练语言模型能够深入分析客户信息，对复杂查询提供精准回应。对于聊天机器人应用而言，更长的上下文支持意味着更流畅自然的对话体验。事实上，Salesforce并非唯一关注这一领域的科技企业。新兴AI初创公司Anthropic（由OpenAI前员工创立）近期显著扩展了旗舰应用Claude的上下文处理能力，使其能够从多份商业文件或书籍中提取关键信息，并解答相关数据问题。当前AI模型在扩展上下文长度方面仍面临挑战。当ChatGPT和Bing AI等应用用户在单次对话中持续使用模型时，回应质量会逐渐下降，这源于模型难以有效处理长序列上下文导致的混淆和幻觉现象。XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

2026年02月09日

12:36

Salesforce新AI模型XGen-7B超越Meta LLaMA 在长序列数据分析中表现亮眼

最新快讯

2026年02月09日

字节跳动开源Protenix-v1硬刚AlphaFold3生物分子预测新标杆

小红书内测AI剪辑工具OpenStoryline对话剪视频未来或开源

Live Tinted完成B轮融资欧莱雅BOLD战略入股支持多元肤色美妆品牌

阿里千问Qwen3.5即将开放开源性能全面升级

万达电影四部大片定档2026春节档强化内容布局提升票房

我国首次实现脑机接口太空在轨验证突破神经传感技术瓶颈

苹果2026年春季密集发布iPhone 17e及新款iPad和MacBook

特斯拉FSD助力心脏病车主及时送医成功获救

昆明呈贡福朋喜来登酒店2026年2月9日盛大开业

郑州开通巴塞尔塔林跨境电商全货机航线提升欧洲物流效率

小米汽车对开门专利获授权无序开门技术提升用户体验

宁美名龙星球MX301 PRO轻量化无线游戏鼠标发布