微新创想(idea2003.com) 7月31日讯:一项最新研究揭示了大型语言模型在不同语言处理上的成本差异,这一发现对于全球范围内的AI应用具有重要启示。研究指出,以OpenAI为代表的服务在处理英语输入和输出时成本最低,而其他语言则呈现出显著差异。具体而言,简体中文的处理成本约为英语的两倍,西班牙语则需1.5倍,而掸语更是高达15倍。

牛津大学的研究团队通过实验发现,一个大型语言模型处理一句缅甸语句子需要198个tokens,相比之下,同样的英语句子仅需17个tokens。Token作为衡量API访问大型语言模型(如OpenAI的ChatGPT或Anthropic的Claude 2)计算成本的基本单位,这一数据直观地表明,处理缅甸语句子的成本是英语的11倍。这种「标记化」模型的工作方式意味着,非英语语言在访问和训练时往往面临更高的经济门槛。

语言结构差异是造成成本差异的核心原因。以中文为例,其语法结构和字符数量与英语存在本质区别,导致标记化成本显著提高。OpenAI的GPT3 tokenizer数据显示,「your affection」这一词组在英语中仅需两个tokens,而在简体中文中却需要八个tokens。尽管英语文本有14个字符,但简体中文仅用4个字符就能表达相同含义,这种差异直接影响了计算资源的消耗。

微软在其ChatGPT模型API使用页面上提供了实用的标记化工具,帮助用户测试不同提示的成本。该工具显示,英语中1个token约等于4个字符,100个tokens则相当于75个英文单词。值得注意的是,这种线性关系并不适用于其他语言,微软对此有明确说明。

从成本效益角度来看,英语在人工智能领域展现出无与伦比的优势。以中文为例,其使用成本是英语的两倍。这一现象反映了当前AI公司训练模型时可用数据的分布情况。高质量紧急数据(如生活记录产生的数据)的价值在人工智能爆发期得到充分体现,这也直接关系到AI公司实现递归训练的愿景——即用自身输出训练AI模型。

若要实现这一目标,未来模型仍将延续英语的成本优势。其他语言由于复杂性和基础训练数据的局限性,标记化速率将持续偏高。进一步分析表明,除了标记化之外,其他成本衡量方法(如位数或字符计数)同样无法绕开这一困境。英语凭借其较高的「可压缩性」,在标记数量上始终处于领先地位,这并非货币化方式的问题,而是技术和基础模型训练中的真实局限。

值得注意的是,这一成本差异不仅存在于当前的大型语言模型,未来多语言模型也可能面临相同挑战。毕竟,这些模型大多采用相似的技术架构。考虑到ChatGPT等大型语言模型及Midjourney等生成式图像网络主要诞生于美国,成本差异已促使中国和印度等国家启动本土语言模型的研发计划。这些国家声称此举旨在配合以英语为基础的AI网络实现创新速度,而创新速度本身正受限于访问和训练成本。

在人工智能这一复杂而深远的领域,成本效益始终是关键考量因素。每个决策都需要谨慎权衡,因为微小的变化可能产生巨大的影响。语言处理成本问题不仅关乎经济效率,更反映了全球AI发展的不平衡现状。随着技术的不断进步,如何平衡成本与质量,将成为未来AI领域的重要课题。

最新快讯

2025年12月18日

06:52
2025年12月18日,科技巨头Meta公司正式宣布暂停其混合现实操作系统Horizon OS的第三方设备合作计划。这一战略调整标志着Meta将重心转向自研软硬件产品,致力于推动虚拟现实市场的创新与进步。该合作计划自2024年4月启动以来,旨在构建一个开放多元的硬件生态系统,但实际进展远未达预期,进展缓慢成为项目面临的主要挑战。 随着人工智能技术的崛起,Me...
06:52
2025年12月18日,美光科技首席执行官在公开场合明确指出,当前全球内存市场面临的供应紧张局面预计将持续至2026年之后。这一判断主要基于两大核心因素:一是服务器需求始终保持强劲增长态势,二是人工智能技术的迅猛发展正不断推动数据存储需求的升级换代。美光作为全球内存产业的领军企业之一,其前瞻性的市场预测不仅揭示了高端内存市场在未来几年内将保持高速增长的潜力,...
06:52
2025年12月18日,OpenAI重磅宣布了一项具有里程碑意义的创新举措——开发者现在可以自由向ChatGPT平台上传并部署自研应用程序。这一开放策略将极大地赋能开发者,使其能够将个性化的应用无缝集成到ChatGPT的庞大生态系统中,从而显著增强平台的功能扩展能力,并带来更加丰富多元的用户体验。该平台特别强调,这一功能面向全球开发者全面开放,充分体现了Op...
06:51
2025年12月18日,北京五一视界数字孪生科技股份有限公司正式宣布启动在香港交易所的首次公开募股(IPO)计划。此次IPO规模宏大,公司计划发售2397.5万股,每股发行价定为30.5港元,预计将筹集近7.3亿港元资金。 这笔募集的资金将重点投向技术研发和业务拓展两大领域。五一视界作为数字孪生领域的先行者,将持续加大在人工智能、大数据、云计算等前沿技术...
06:51
12月18日清晨至上午时段,我国北方及华东部分地区将遭遇大雾天气的严重影响。具体影响范围包括河北中部、河南东南部、安徽中部、湖北东部以及浙江北部等地。其中,河北中部、河南南部、安徽中部、湖北东部及四川盆地东南部部分地区将出现能见度低于500米的浓雾,局部地区能见度甚至不足200米,对出行造成极大困扰。 中央气象台已于当日凌晨6时正式发布大雾黄色预警,紧急提醒...
05:51
2025年12月18日,全球知名企业家埃隆·马斯克在一场备受瞩目的公开演讲中透露,其领导的人工智能公司xAI有望在2026年取得重大突破,实现人工通用智能(AGI)的里程碑式进展。这一概念意味着AI系统将在所有认知任务上全面超越人类智慧水平,开启人工智能发展的全新纪元。 马斯克在讲话中特别强调,当前人工智能领域的发展速度已远超行业普遍预期。他透露,xAI团队...
05:51
2025年12月18日,欧洲航空安全局(EASA)紧急发布安全建议,要求对欧洲地区运营的空客A320系列部分飞机进行专项检查。此次行动的核心问题指向由空客某供应商提供的机身壁板,由于在生产环节出现质量瑕疵,部分壁板的实际厚度可能未能达到既定安全标准。据了解,涉及此次检查的飞机数量尚未正式公布,但主要集中在对欧洲航线运营的A320系列客机。 EASA在官方声明...
05:51
德国知名金属企业莱茵金属公司(RHM)近日正式宣布启动民用部门的剥离计划,标志着其战略转型迈出关键一步。目前,该公司正与两家潜在收购方进行深入磋商,预计在2026年第一季度完成合同签署,实现资产出售。此次剥离行动的核心目标在于优化整体业务结构,使公司能够更加聚焦于防务领域这一核心产业,从而提升竞争力和市场地位。 根据公司最新披露的信息,莱茵金属将为即将剥离的...
05:51
2025年12月18日,全球领先的媒体公司康卡斯特正式对外宣布,将其旗下核心媒体部门的价值评估为810亿美元。这一极具分量的估值数字,不仅彰显了康卡斯特对该业务板块的坚定信心,更揭示了其在未来媒体格局中的战略布局。据悉,此次交易的核心是康卡斯特与华纳兄弟探索公司(WBD)之间展开的深度合作,双方将在有线电视服务、流媒体平台以及内容制作等多个关键领域进行资源整...
05:51
2025年12月18日,Octagon Credit Investors LLC的高级投资组合经理Lauren Law在行业研讨会上指出,信贷贷款 Obligation(CLO)市场正迎来前所未有的发展机遇,其核心驱动力源于投资者群体的显著拓宽。随着越来越多的机构投资者将目光投向这一领域,交易所交易基金(ETF)等零售投资渠道对CLO产品的兴趣也日益浓厚,呈...
04:50
12月18日凌晨3时01分,新疆阿克苏地区沙雅县突发4.0级地震,震源深度仅10公里,显示出较强的浅层地质活动特征。根据地震监测数据,震中位于北纬41.07度、东经83.35度,该区域属于新疆地震活动频发带,此次地震虽未造成人员伤亡和重大财产损失,但依然引起了广泛关注。 地震发生后,相关部门已迅速启动应急响应机制,专业团队正对震区地质结构进行详细评估,以全面...
04:50
2025年12月17日,世界卫生组织发布最新监测报告,指出今年流感在欧洲的传播时间较往年提前了约四周,呈现异常活跃态势。目前已有38个国家向世卫组织报告了流感数据,其中27个国家流感活跃度达到"高"或"极高"级别,多个欧洲国家正经历严峻的流感疫情。 爱尔兰、英国等欧洲多国最新数据显示,超过半数的流感样病例已确诊为流感病毒感染,其中甲型H3N2毒株占据近90%...