Salesforce新AI模型XGen-7B超越Meta LLaMA 在长序列数据分析中表现亮眼

2023-07-05 08:21:26 互联网 48 次阅读

微新创想（Idea2003.com）7月4日消息：随着人工智能工具应用的日益广泛，企业对能够高效处理多样化任务的智能系统的需求正持续攀升。拥有ChatGPT或Bard等先进聊天界面，能够对长篇文档进行精准摘要或深度挖掘客户数据以提炼商业洞察，已成为企业提升运营效率的关键。然而，要实现这些高级功能，AI模型必须经过海量数据的严格训练。尽管许多企业出于成本考量选择了参数量更小、经济性更高的模型，但这类模型在处理复杂任务时往往力不从心。以Meta的LLaMA、Falcon-7B和MPT-7B等开源模型为例，其最大序列长度仅约2000个token，难以胜任对冗长非结构化数据如文件内容的深度分析。为突破这一瓶颈，Salesforce推出了创新的大型语言模型XGen-7B，该模型经过长达8000个token序列的训练，显著提升了处理海量文档输入的能力，总处理量高达1.5万亿个token。Salesforce的研究团队采用自研的JaxFormer框架及公共领域的高质量教学数据，成功训练出这一参数量达70亿的模型。在性能表现上，XGen-7B与LLaMA、Falcon和Redpajama等主流开源模型相比，实现了并跑甚至超越的优异成果。据SalesforceAI研究人员透露，借助Google Cloud的TPU-v4云计算平台，在1万亿个token规模上完成模型训练的投入仅为15万美元，展现出极高的性价比。XGen-7B基准测试表现卓越在多项权威基准测试中，XGen-7B的表现令人瞩目，在多个关键指标上超越了备受青睐的开源大型语言模型。在”Measuring Massive Multitask Language Understanding（MMLU）”基准测试中，XGen在四个测试类别中的三个取得了最高分，其加权平均分同样位居首位。仅在人文领域测试中，Meta的LLaMA表现略胜一筹。在零样本测试环节，XGen同样表现出色，虽在人文领域仍稍逊于LLaMA，但在整体零样本测试中仅在”TruthfulQA”基准测试中落后于其他模型。在ARC_ch、Hella Swag和Winogrande等基准测试中，LLaMA表现更优，但在代码生成任务上，XGen以14.20的pass@1指标成绩，大幅领先LLaMA（10.38）及其他竞争模型。特别是在处理长序列任务时，Salesforce的AI模型展现出压倒性优势，在SCROLLS基准测试的QMSum和GovReport数据集上均获得高分。不过研究团队特别指出，由于XGen模型未使用相同的教学数据进行训练，因此与同类模型存在可比性差异。XGen-7B系列模型详解Salesforce研究团队开发了三个不同配置的XGen-7B模型：XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。XGen-7B-4K-base可处理8000亿个上下文token，采用两阶段训练策略，先在2000个token规模数据上训练，再扩展至4000个token。该模型遵循Apache-2.0许可协议，允许衍生作品采用不同许可方式分发，但原始组件必须保留Apache2.0许可。XGen-7B-8K-base在4K-base基础上增加3000亿token处理能力，总上下文理解能力达到1.5万亿个token，同样采用Apache-2.0许可。XGen-7B-inst则基于公共领域教学数据（包括databricks-dolly-15k、oasst1、Baize及GPT相关数据集）进行微调，在4000和8000个token规模上训练，主要用于研究目的。模型训练采用创新的两阶段策略，每个阶段使用不同数据组合。团队表示：”在C4数据处理中，我们整合了6个Common Crawl转储，通过保留各URL文档的最新版本实现跨转储去重，并构建线性分类模型将数据分为维基百科类文档和随机文档，最终选取前20%的维基百科类文档。”随后将Salesforce与Hugging Face联合开发的代码生成模型Starcoder纳入训练，其核心数据与前一阶段成果混合。模型采用OpenAI的tiktoken进行token化，并额外添加连续空白和制表符token。XGen-7B的局限性尽管训练出了一系列高性能AI模型，XGen系列仍存在改进空间。Salesforce指出，该模型在生成内容时仍可能出现事实性偏差问题。关于XGen-7B的更多技术细节，Salesforce已在官方博客发布详尽文章。模型代码库托管于GitHub，预训练检查点可在Hugging Face平台获取。上下文长度的重要性能够理解更长输入的模型对企业应用具有革命性意义。Salesforce研究人员强调，海量上下文数据使预训练语言模型能够深入分析客户信息，对复杂查询提供精准回应。对于聊天机器人应用而言，更长的上下文支持意味着更流畅自然的对话体验。事实上，Salesforce并非唯一关注这一领域的科技企业。新兴AI初创公司Anthropic（由OpenAI前员工创立）近期显著扩展了旗舰应用Claude的上下文处理能力，使其能够从多份商业文件或书籍中提取关键信息，并解答相关数据问题。当前AI模型在扩展上下文长度方面仍面临挑战。当ChatGPT和Bing AI等应用用户在单次对话中持续使用模型时，回应质量会逐渐下降，这源于模型难以有效处理长序列上下文导致的混淆和幻觉现象。XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

2026年02月09日

15:08

Salesforce新AI模型XGen-7B超越Meta LLaMA 在长序列数据分析中表现亮眼

最新快讯

2026年02月09日

春节壕掷 30 亿！阿里联手饿了么开启“AI免单”： 3800 亿砸出的底气，AI大战争夺战升级

100亿美元!黑石领投澳大利亚AI基建商Firmus史上最大融资

千问春节免单卡限时19天一站式年货采购覆盖全国商超便利店

Claude Opus 4.6登顶AI智商基准测试挑战GPT-5.2领先地位

美企裁员真相揭秘：AI洗白掩盖经营困境与转型风险

斯达领动完成数千万元A1轮融资加速4D毫米波雷达技术与产能发展

金雷股份财务总监朱晓宇任职四月辞职风电行业业绩亮眼

珂玛科技可转债获深交所审核通过 7.5亿资金助力半导体材料发展

派特美生完成A+轮融资勤智资本独家投资助力宠物药物研发突破

智慧倍增机器人Pre-A轮融资落地投资方助力AI数字人技术发展

雷军小年直播迎新春共享年味与品牌服务体验

江苏卓科制药完成金桥基金天使轮融资助力医药中间体与定制化学品发展