微新创想(Idea2003.com)7月4日 消息:随着人工智能工具应用的日益广泛,企业对能够高效处理多样化任务的智能系统的需求正持续攀升。拥有ChatGPT或Bard等先进聊天界面,能够对长篇文档进行精准摘要或深度挖掘客户数据以提炼商业洞察,已成为企业提升运营效率的关键。然而,要实现这些高级功能,AI模型必须经过海量数据的严格训练。尽管许多企业出于成本考量选择了参数量更小、经济性更高的模型,但这类模型在处理复杂任务时往往力不从心。以Meta的LLaMA、Falcon-7B和MPT-7B等开源模型为例,其最大序列长度仅约2000个token,难以胜任对冗长非结构化数据如文件内容的深度分析。为突破这一瓶颈,Salesforce推出了创新的大型语言模型XGen-7B,该模型经过长达8000个token序列的训练,显著提升了处理海量文档输入的能力,总处理量高达1.5万亿个token。Salesforce的研究团队采用自研的JaxFormer框架及公共领域的高质量教学数据,成功训练出这一参数量达70亿的模型。在性能表现上,XGen-7B与LLaMA、Falcon和Redpajama等主流开源模型相比,实现了并跑甚至超越的优异成果。据SalesforceAI研究人员透露,借助Google Cloud的TPU-v4云计算平台,在1万亿个token规模上完成模型训练的投入仅为15万美元,展现出极高的性价比。XGen-7B基准测试表现卓越在多项权威基准测试中,XGen-7B的表现令人瞩目,在多个关键指标上超越了备受青睐的开源大型语言模型。在”Measuring Massive Multitask Language Understanding(MMLU)”基准测试中,XGen在四个测试类别中的三个取得了最高分,其加权平均分同样位居首位。仅在人文领域测试中,Meta的LLaMA表现略胜一筹。在零样本测试环节,XGen同样表现出色,虽在人文领域仍稍逊于LLaMA,但在整体零样本测试中仅在”TruthfulQA”基准测试中落后于其他模型。在ARC_ch、Hella Swag和Winogrande等基准测试中,LLaMA表现更优,但在代码生成任务上,XGen以14.20的pass@1指标成绩,大幅领先LLaMA(10.38)及其他竞争模型。特别是在处理长序列任务时,Salesforce的AI模型展现出压倒性优势,在SCROLLS基准测试的QMSum和GovReport数据集上均获得高分。不过研究团队特别指出,由于XGen模型未使用相同的教学数据进行训练,因此与同类模型存在可比性差异。XGen-7B系列模型详解Salesforce研究团队开发了三个不同配置的XGen-7B模型:XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。XGen-7B-4K-base可处理8000亿个上下文token,采用两阶段训练策略,先在2000个token规模数据上训练,再扩展至4000个token。该模型遵循Apache-2.0许可协议,允许衍生作品采用不同许可方式分发,但原始组件必须保留Apache2.0许可。XGen-7B-8K-base在4K-base基础上增加3000亿token处理能力,总上下文理解能力达到1.5万亿个token,同样采用Apache-2.0许可。XGen-7B-inst则基于公共领域教学数据(包括databricks-dolly-15k、oasst1、Baize及GPT相关数据集)进行微调,在4000和8000个token规模上训练,主要用于研究目的。模型训练采用创新的两阶段策略,每个阶段使用不同数据组合。团队表示:”在C4数据处理中,我们整合了6个Common Crawl转储,通过保留各URL文档的最新版本实现跨转储去重,并构建线性分类模型将数据分为维基百科类文档和随机文档,最终选取前20%的维基百科类文档。”随后将Salesforce与Hugging Face联合开发的代码生成模型Starcoder纳入训练,其核心数据与前一阶段成果混合。模型采用OpenAI的tiktoken进行token化,并额外添加连续空白和制表符token。XGen-7B的局限性尽管训练出了一系列高性能AI模型,XGen系列仍存在改进空间。Salesforce指出,该模型在生成内容时仍可能出现事实性偏差问题。关于XGen-7B的更多技术细节,Salesforce已在官方博客发布详尽文章。模型代码库托管于GitHub,预训练检查点可在Hugging Face平台获取。上下文长度的重要性能够理解更长输入的模型对企业应用具有革命性意义。Salesforce研究人员强调,海量上下文数据使预训练语言模型能够深入分析客户信息,对复杂查询提供精准回应。对于聊天机器人应用而言,更长的上下文支持意味着更流畅自然的对话体验。事实上,Salesforce并非唯一关注这一领域的科技企业。新兴AI初创公司Anthropic(由OpenAI前员工创立)近期显著扩展了旗舰应用Claude的上下文处理能力,使其能够从多份商业文件或书籍中提取关键信息,并解答相关数据问题。当前AI模型在扩展上下文长度方面仍面临挑战。当ChatGPT和Bing AI等应用用户在单次对话中持续使用模型时,回应质量会逐渐下降,这源于模型难以有效处理长序列上下文导致的混淆和幻觉现象。XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

最新快讯

2026年02月09日

12:36
微新创想:生物计算领域迎来重磅开源力量 字节跳动近日正式发布了名为Protenix-v1的生物分子结构预测模型 该模型不仅完整复现了 AlphaFold3(AF3)的核心能力 更宣布在 Apache2.0协议下全面开源代码及模型参数 打破了顶尖生物大模型的技术围垒 Protenix-v1的强大之处在于其全原子3D 结构预测能力 能够精准处理包括蛋白质、核...
12:36
微新创想:小红书技术团队正在研发一款名为 OpenStoryline(版本号1.0.0)的视频剪辑类AI产品。该产品目前尚处于测试阶段,未来有开源的可能。OpenStoryline 定位为基于AI智能体的创作工具,核心功能支持对话式剪辑。这一创新设计让用户可以通过自然语言与AI互动,完成视频内容的策划与剪辑。产品效果被认为类比字节跳动的即梦小云雀及商汤的 S...
12:31
微新创想:2026年2月,美国互联网彩妆品牌Live Tinted完成B轮融资,金额达到数千万美元。此次融资由Curate Capital领投,欧莱雅集团旗下战略风投基金BOLD首次作为新战略投资者加入。联合利华旗下Unilever Ventures及Monogram Capital等现有股东也选择跟投。Live Tinted由南亚裔美国网红Deepica ...
12:31
微新创想:2026年2月9日,全球最大AI开源社区HuggingFace出现Qwen3.5接入Transformers库的代码合并申请(PR) 该模型由阿里巴巴研发,属于Qwen系列新一代基座大模型 目前尚未正式发布,但已进入开源生态集成阶段 此举意味着Qwen3.5即将面向开发者开放,或为后续商用版本铺路 业内普遍认为其性能、多语言支持及推...
12:31
微新创想:2026年2月9日,万达电影在投资者互动平台披露,其投资出品的《飞驰人生3》《惊蛰无声》《熊出没·年年有熊》及联合出品的《镖人》均已定档春节档。影片将于2月28日(农历腊月二十九)起陆续上映,覆盖喜剧、悬疑、动画及古装动作类型。 此举系公司强化春节档内容布局、提升票房市场份额的重要举措。四部影片均由万达主控宣发或深度参与制作,预计覆盖全年龄观影群体...
12:31
微新创想:2026年2月,西北工业大学常洪龙、吉博文团队研发的三维锥形碳基柔性大脑皮层电极阵列,搭载“迪迩五号·中国科技城号”空间试验器,在轨成功开展国际首次无线植入式脑机接口离体验证 此次试验在近地轨道上进行,电极阵列在模拟体液环境中持续稳定采集脑电信号,成功获取了噪声水平与服役稳定性等关键数据 该技术突破了极端空间环境下神经传感技术的瓶颈,填补了国际在该...
12:31
微新创想:据科技记者马克·古尔曼报道,2026年2月中旬至3月上旬,苹果公司将在全球范围内密集推出多款新产品。此次发布会涵盖多个产品线,包括iPhone 17e、新款iPad以及搭载M5 Pro和M5 Max芯片的MacBook系列。苹果的这次产品发布主要集中在中端机型和性能提升方面,意在进一步完善其春季产品线布局。 消息来源并未公布具体的发布日期和区域安排...
12:31
微新创想:2025年11月凌晨4时许,美国佐治亚州一名车主在前往亚特兰大途中突发STEMI型心肌梗死。该车主驾驶的是一辆2026款Model Y首发版,车辆已更新至最新的FSD v14.1.3软件系统。在突发状况发生时,车辆的自动驾驶功能依然保持正常运行。 其子杰克·布兰特在紧急时刻通过远程授权的方式,成功操控车辆导航系统。他引导FSD将车辆安全驶入卡罗尔顿...
12:31
微新创想:2026年2月9日 昆明呈贡福朋喜来登酒店在昆明市呈贡新区春融街正式开业 酒店由万豪国际集团运营 位于市政中心旁 拥有优越的地理位置 毗邻多个城市公园及热门商圈 距离昆明南站约5公里 交通便利 便于商务出行和城市探索 距离长水国际机场约28公里 为远道而来的旅客提供了便捷的交通选择 酒店设有116间现代化客房及套房 部分房间可欣赏到公园的美丽景观 ...
12:31
微新创想:2月5日,郑州新郑国际机场相继开通“郑州-巴塞尔”和“郑州-塔林”两条跨境电商全货机航线。前者于2月4日首飞瑞士巴塞尔,后者于2月5日晚首飞爱沙尼亚塔林。两航线均由中大门国际物流集团运营,其中郑州-巴塞尔航线每周三班,郑州-塔林航线每周两班。 此次新航线的开通标志着郑州在跨境电商物流领域迈出了重要一步。作为中国内陆的重要物流节点,郑州一直致力于打造...
12:31
微新创想:2月6日,小米汽车科技有限公司申请的“对开门车辆和锁扣组件”专利正式获国家知识产权局授权。该专利适用于对开门车型,通过创新锁扣与铰链组件协同设计,使左右车门可不分先后顺序独立开启或关闭。这一技术突破为用户带来了更便捷的上下车体验,同时也提升了人机交互的智能化水平。 微新创想:技术方案包括车身、两扇对开式车门、可移动锁扣组件及轨迹可控铰链组件,实现开...
12:31
微新创想:2026年2月9日,宁美旗下品牌名龙星球正式推出新款无线游戏鼠标MX301 PRO。这款鼠标专为中小手用户设计,兼顾了便携性与操控性。整体重量仅为57±3克,轻盈的机身让玩家在长时间游戏过程中也能保持舒适的手感。 微新创想:MX301 PRO采用复合碳纤维材质,不仅提升了产品的耐用性,还有效减轻了重量,使鼠标更加灵活。同时,该鼠标准备支持抓握、趴握...