微新创想(Idea2003.com)7月4日 消息:随着人工智能工具应用的日益广泛,企业对能够高效处理多样化任务的智能系统的需求正持续攀升。拥有ChatGPT或Bard等先进聊天界面,能够对长篇文档进行精准摘要或深度挖掘客户数据以提炼商业洞察,已成为企业提升运营效率的关键。然而,要实现这些高级功能,AI模型必须经过海量数据的严格训练。尽管许多企业出于成本考量选择了参数量更小、经济性更高的模型,但这类模型在处理复杂任务时往往力不从心。以Meta的LLaMA、Falcon-7B和MPT-7B等开源模型为例,其最大序列长度仅约2000个token,难以胜任对冗长非结构化数据如文件内容的深度分析。为突破这一瓶颈,Salesforce推出了创新的大型语言模型XGen-7B,该模型经过长达8000个token序列的训练,显著提升了处理海量文档输入的能力,总处理量高达1.5万亿个token。Salesforce的研究团队采用自研的JaxFormer框架及公共领域的高质量教学数据,成功训练出这一参数量达70亿的模型。在性能表现上,XGen-7B与LLaMA、Falcon和Redpajama等主流开源模型相比,实现了并跑甚至超越的优异成果。据SalesforceAI研究人员透露,借助Google Cloud的TPU-v4云计算平台,在1万亿个token规模上完成模型训练的投入仅为15万美元,展现出极高的性价比。XGen-7B基准测试表现卓越在多项权威基准测试中,XGen-7B的表现令人瞩目,在多个关键指标上超越了备受青睐的开源大型语言模型。在”Measuring Massive Multitask Language Understanding(MMLU)”基准测试中,XGen在四个测试类别中的三个取得了最高分,其加权平均分同样位居首位。仅在人文领域测试中,Meta的LLaMA表现略胜一筹。在零样本测试环节,XGen同样表现出色,虽在人文领域仍稍逊于LLaMA,但在整体零样本测试中仅在”TruthfulQA”基准测试中落后于其他模型。在ARC_ch、Hella Swag和Winogrande等基准测试中,LLaMA表现更优,但在代码生成任务上,XGen以14.20的pass@1指标成绩,大幅领先LLaMA(10.38)及其他竞争模型。特别是在处理长序列任务时,Salesforce的AI模型展现出压倒性优势,在SCROLLS基准测试的QMSum和GovReport数据集上均获得高分。不过研究团队特别指出,由于XGen模型未使用相同的教学数据进行训练,因此与同类模型存在可比性差异。XGen-7B系列模型详解Salesforce研究团队开发了三个不同配置的XGen-7B模型:XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。XGen-7B-4K-base可处理8000亿个上下文token,采用两阶段训练策略,先在2000个token规模数据上训练,再扩展至4000个token。该模型遵循Apache-2.0许可协议,允许衍生作品采用不同许可方式分发,但原始组件必须保留Apache2.0许可。XGen-7B-8K-base在4K-base基础上增加3000亿token处理能力,总上下文理解能力达到1.5万亿个token,同样采用Apache-2.0许可。XGen-7B-inst则基于公共领域教学数据(包括databricks-dolly-15k、oasst1、Baize及GPT相关数据集)进行微调,在4000和8000个token规模上训练,主要用于研究目的。模型训练采用创新的两阶段策略,每个阶段使用不同数据组合。团队表示:”在C4数据处理中,我们整合了6个Common Crawl转储,通过保留各URL文档的最新版本实现跨转储去重,并构建线性分类模型将数据分为维基百科类文档和随机文档,最终选取前20%的维基百科类文档。”随后将Salesforce与Hugging Face联合开发的代码生成模型Starcoder纳入训练,其核心数据与前一阶段成果混合。模型采用OpenAI的tiktoken进行token化,并额外添加连续空白和制表符token。XGen-7B的局限性尽管训练出了一系列高性能AI模型,XGen系列仍存在改进空间。Salesforce指出,该模型在生成内容时仍可能出现事实性偏差问题。关于XGen-7B的更多技术细节,Salesforce已在官方博客发布详尽文章。模型代码库托管于GitHub,预训练检查点可在Hugging Face平台获取。上下文长度的重要性能够理解更长输入的模型对企业应用具有革命性意义。Salesforce研究人员强调,海量上下文数据使预训练语言模型能够深入分析客户信息,对复杂查询提供精准回应。对于聊天机器人应用而言,更长的上下文支持意味着更流畅自然的对话体验。事实上,Salesforce并非唯一关注这一领域的科技企业。新兴AI初创公司Anthropic(由OpenAI前员工创立)近期显著扩展了旗舰应用Claude的上下文处理能力,使其能够从多份商业文件或书籍中提取关键信息,并解答相关数据问题。当前AI模型在扩展上下文长度方面仍面临挑战。当ChatGPT和Bing AI等应用用户在单次对话中持续使用模型时,回应质量会逐渐下降,这源于模型难以有效处理长序列上下文导致的混淆和幻觉现象。XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/
最新快讯
2026年02月09日
微新创想:2026年2月9日,英国在线杂货巨头Ocado宣布启动成本削减计划,将裁减至多1000个岗位。此次裁员涉及公司多个部门,主要集中在运营、技术及行政支持职能。
公司表示,此举旨在提升运营效率、应对持续的市场竞争与盈利压力,并优化其自动化仓储与配送网络的投资回报。Ocado近年来在自动化技术上的投入巨大,但随着市场竞争加剧,企业需要重新评估其运营模式和...
微新创想:2026年2月9日 特斯拉CEO马斯克宣布旗下电动重卡Semi将在今年内启动大规模量产
该车型将在美国内华达州超级工厂进行生产 首批交付对象包括百事公司等早期客户
量产启动的主要目的是为了加速商用物流领域的电动化转型 同时提升产能 以应对目前已积压的超过10万辆订单
这一举措标志着特斯拉正式进军商用电动车市场 并进一步拓展其在新能源汽车领域的业务范...
微新创想:2026年1月,闪迪宣布启用全新游戏SSD品牌SANDISK Optimus,取代原西部数据旗下的WD_BLACK与WD_Blue系列。这一品牌重塑标志着闪迪在游戏存储市场上的全新布局。
微新创想:2月8日,首款产品Optimus GX Pro 8100正式登陆美国亚马逊等渠道。该产品作为SANDISK Optimus系列的首发之作,受到了广泛关注...
微新创想:2026年2月10日,《守望先锋》正式上线“Reign of Talon”第一赛季。此次更新一次性推出了包括人气辅助英雄Fika(喷气背包猫)在内的五名全新角色,引发了玩家的广泛关注和热烈讨论。新英雄的加入不仅丰富了游戏的战术选择,也极大地提升了玩家的游戏体验,使得《守望先锋》在Steam平台上的同时在线人数达到了历史最高水平。
微新创想:这一成绩...
微新创想:2月8日,第35届国际乒联—亚乒联盟亚洲杯男单决赛在阿联酋举行。中国选手王楚钦以4比2战胜日本选手张本智和,成功夺冠。这是王楚钦继2025年后再度问鼎该项赛事男单冠军。
本次夺冠不仅巩固了王楚钦在亚洲乒坛的顶尖地位,也为中国队赢得了重要的荣誉。王楚钦在比赛中展现了出色的技战术水平和稳定的心理素质,面对强敌毫不畏惧,最终以实力取胜。
赛事于北京时间2...
微新创想:2026年2月8日,乘联分会秘书长崔东树发布数据显示,2026年1月全国乘用车市场新车降价车型均价为24.8万元,算术平均降价3.7万元,降幅达14.9%。其中新能源车降价均值3.8万元(降幅14.8%),燃油车3.6万元(降幅15%)。这一数据反映出当前汽车市场整体价格下行的趋势。
降价覆盖主流车企及多款热销车型,表明各大厂商正在积极调整市场策略...
微新创想:2024年初,作家Nazemian等人在美国加州北区联邦法院提起诉讼,指控英伟达公司在训练其AI模型时,使用了来自Anna's Archive等影子图书馆的盗版书籍。这一诉讼引发了广泛关注,涉及版权保护与人工智能技术发展的边界问题。
微新创想:2026年1月29日,英伟达公司正式提交动议,请求法院驳回该集体诉讼。公司强调,原告未能提供任何实质性证据...
微新创想:2026年2月8日晚,AYANEO正式发布NEXT 2 Windows掌机,极夜黑版预售价12999元起,即日起官网开启预订,预计2026年5月底发货。这款掌机在性能和设计上都有显著提升,满足了用户对便携与高效的需求。
该机搭载AMD Ryzen AI Max+ 395处理器,基于先进的Zen 5架构打造,带来更强的运算能力。同时配备Radeon ...
2026年02月08日
微新创想:据科技爆料人马克·古尔曼2月8日透露,苹果计划于2月23日当周向开发者推送iOS 26.4测试版。该版本将首次集成新版Siri部分功能,为用户带来更智能的语音助手体验。
此次更新不仅限于Siri的升级,还可能包含其他系统层面的优化。苹果通常会在测试版中引入新功能,以便开发者提前测试并进行适配。因此,iOS 26.4的发布预示着即将推出的iOS 18...
微新创想:苹果计划于2026年2月23日当周向开发者推送iOS 26.4首个测试版
此次更新将首次实装部分Apple Intelligence功能及升级版Siri
这些新功能涵盖上下文理解、跨应用操作与屏幕内容感知三大能力
苹果此次调整了原定在WWDC 2024公布的功能发布时间表
相关功能将由Gemini模型提供AI支持
这一延期可能是由于开发进度的影响
...
微新创想
2月8日,有网友反映千问APP的免单活动出现无法下单的情况。对此,千问官方通过微博回应称,大家请互相理解,很多用户都急着参与此次活动,但因为热度太高,系统有些拥堵。官方表示,免单卡的有效期截止到2月28日,建议用户合理安排时间,慢慢参与,确保能够顺利使用。
据悉,千问APP于2月6日正式启动了第一波春节30亿大免单活动。所有用户只需将APP更新...
微新创想:2026年2月8日,哈弗正式发布猛龙PLUS版本。新车轴距达2850mm,较现款增加11.2厘米,车身尺寸为4912×1950×1905mm,提供5座和7座布局。外观延续方盒子设计,升级前脸格栅及侧窗饰板。全系标配激光雷达,支持高速/城市NOA及自动泊车。WLTC纯电续航191km(CLTC约255km),动力搭载1.5T+Hi4插电混动四驱系统,...
