微新创想(idea2003.com) 7月31日讯:一项最新研究揭示了大型语言模型在不同语言处理上的成本差异,这一发现对于全球范围内的AI应用具有重要启示。研究指出,以OpenAI为代表的服务在处理英语输入和输出时成本最低,而其他语言则呈现出显著差异。具体而言,简体中文的处理成本约为英语的两倍,西班牙语则需1.5倍,而掸语更是高达15倍。

牛津大学的研究团队通过实验发现,一个大型语言模型处理一句缅甸语句子需要198个tokens,相比之下,同样的英语句子仅需17个tokens。Token作为衡量API访问大型语言模型(如OpenAI的ChatGPT或Anthropic的Claude 2)计算成本的基本单位,这一数据直观地表明,处理缅甸语句子的成本是英语的11倍。这种「标记化」模型的工作方式意味着,非英语语言在访问和训练时往往面临更高的经济门槛。

语言结构差异是造成成本差异的核心原因。以中文为例,其语法结构和字符数量与英语存在本质区别,导致标记化成本显著提高。OpenAI的GPT3 tokenizer数据显示,「your affection」这一词组在英语中仅需两个tokens,而在简体中文中却需要八个tokens。尽管英语文本有14个字符,但简体中文仅用4个字符就能表达相同含义,这种差异直接影响了计算资源的消耗。

微软在其ChatGPT模型API使用页面上提供了实用的标记化工具,帮助用户测试不同提示的成本。该工具显示,英语中1个token约等于4个字符,100个tokens则相当于75个英文单词。值得注意的是,这种线性关系并不适用于其他语言,微软对此有明确说明。

从成本效益角度来看,英语在人工智能领域展现出无与伦比的优势。以中文为例,其使用成本是英语的两倍。这一现象反映了当前AI公司训练模型时可用数据的分布情况。高质量紧急数据(如生活记录产生的数据)的价值在人工智能爆发期得到充分体现,这也直接关系到AI公司实现递归训练的愿景——即用自身输出训练AI模型。

若要实现这一目标,未来模型仍将延续英语的成本优势。其他语言由于复杂性和基础训练数据的局限性,标记化速率将持续偏高。进一步分析表明,除了标记化之外,其他成本衡量方法(如位数或字符计数)同样无法绕开这一困境。英语凭借其较高的「可压缩性」,在标记数量上始终处于领先地位,这并非货币化方式的问题,而是技术和基础模型训练中的真实局限。

值得注意的是,这一成本差异不仅存在于当前的大型语言模型,未来多语言模型也可能面临相同挑战。毕竟,这些模型大多采用相似的技术架构。考虑到ChatGPT等大型语言模型及Midjourney等生成式图像网络主要诞生于美国,成本差异已促使中国和印度等国家启动本土语言模型的研发计划。这些国家声称此举旨在配合以英语为基础的AI网络实现创新速度,而创新速度本身正受限于访问和训练成本。

在人工智能这一复杂而深远的领域,成本效益始终是关键考量因素。每个决策都需要谨慎权衡,因为微小的变化可能产生巨大的影响。语言处理成本问题不仅关乎经济效率,更反映了全球AI发展的不平衡现状。随着技术的不断进步,如何平衡成本与质量,将成为未来AI领域的重要课题。

最新快讯

2025年12月18日

14:59
微新创想12月18日深度报道 在凛冽的冬日里,许多追求时尚的女性纷纷选择"光腿神器"来兼顾保暖与美丽。然而这种看似完美的单品,却可能隐藏着健康隐患。近日一位网友的亲身经历引发了广泛关注,她因参加重要活动急需保暖又想保持优雅形象,选择了加厚款光腿神器。短短数小时后,她开始出现胸闷、呼吸困难等严重不适症状,最终不得不在家人陪同下前往急诊室救治。这一事件迅速在社交...
14:59
微新创想12月18日重磅消息,据The Elec独家报道,苹果公司已正式启动24英寸iMac OLED面板的研发项目,预示着苹果将在桌面显示领域迎来革命性突破。据悉,苹果已向三星和LG两家显示巨头发出正式的RFI(信息请求文件),旨在收集供应商在零部件规格初步确定后的技术能力与解决方案信息。这一举措标志着苹果正式进入供应链的早期介入阶段,后续将根据技术评估结...
14:59
2025年12月18日,权威市场研究机构TrendForce集邦咨询发布最新报告指出,当前存储器市场正经历严重的供不应求状态。受此影响,DDR5内存凭借其高获利空间,正促使各大厂商积极扩大产能布局。这一策略性调整不仅提升了DDR5的市场供应量,更在客观上挤压了其他产品线的资源分配,从而间接为HBM3e内存的2026年定价注入强劲动力。 尽管HBM3e内存目前...
14:59
微新创想12月18日重磅报道,今日火山引擎FORCE原动力大会圆满落幕,火山引擎总裁谭待携全新视频生成模型Seedance 1.5 Pro震撼登场。这款升级版模型在1.0版本基础上实现了革命性突破,不仅实现了音画高精同步的完美融合,更支持多人多语言对白场景,通过影视级镜头语言和叙事张力,打造沉浸式视觉体验。特别值得一提的是,新增的Draft样片功能让用户能够...
14:59
2025年12月18日,广州市正式开启第二轮汽车消费促进补充活动,新增专项补贴资金高达3亿元人民币,旨在进一步点燃市民购车热情,满足日益增长的汽车消费需求。本次活动由广州市商务局牵头组织,通过精准的财政政策刺激,为市民提供实实在在的购车优惠。 本次补贴活动设置了两个主要档次,分别为4000元和5000元两档补贴,总资金规模达1.5亿元和1.5亿元,对应的名额...
14:59
2025年12月16日,航材股份正式宣布完成一项重大战略布局,以超募资金5.4亿元人民币成功收购航发优材(镇江)钛合金精密成型有限公司100%股权,并完成相应的工商变更手续。此次交易涉及两大股东,其中中国航发北京航空材料研究院作为控股股东持有77%股权,镇江低空产业投资有限公司则持有剩余23%股权。随着工商变更的顺利完成,航发优材(镇江)正式成为航材股份的全...
14:59
2025年12月17日,美国联邦通信委员会(FCC)最新公示的信息揭示了大疆正在筹备的新款手机云台——Osmo Mobile 8P(型号DS508)。这款设备已成功通过FCC认证,硬件设计已基本定型,预计将在2026年3月底至4月初正式发布。作为Osmo Mobile 8的进阶版本,8P在性能和功能上实现了显著升级,有望成为移动影像领域的新标杆。 8P将搭载...
14:59
2025年12月18日,南京市在江北新区成功出让4宗住宅地块,标志着该区域新一轮房地产开发热潮的开启。此次土地出让总面积达6.05万平方米,规划总建筑面积约为8.29万平方米,起始总价高达12.58亿元。值得注意的是,这4宗地块均以底价成交,最终总成交金额与起始价保持一致,为12.58亿元,充分体现了市场对该区域发展前景的信心。 此次出让的地块吸引了多家房地...
14:59
2025年12月18日,便携式核燃料领域的创新先锋Radiant Nuclear成功斩获3亿美元战略融资,标志着核能技术迈入便携化、高效化新纪元。本轮融资由知名风险投资机构Draper Associates与Boost VC联合领投,充分彰显了资本市场对Radiant Nuclear技术突破的高度认可。这笔巨额资金将全面赋能其核心业务——以氦气为冷却剂的便携...
14:59
2025年11月,上海外贸表现再创新高,出口额强势突破1866亿元大关,同比增长18.2%,不仅刷新了单月历史记录,更彰显了上海作为国际贸易中心的强劲动能。当月上海进出口总额高达3874.9亿元,同比增长10.6%,其中出口与进口分别达到1866亿元和2008.9亿元,同比增速分别为18.2%和4.4%,显示出外贸结构持续优化,内需拉动作用日益凸显。 自20...
14:59
2025年12月18日,国内领先的导航测绘与环境监测仪器研发商星测空间正式宣布成功完成450万元天使轮融资。本次融资由深耕硬科技领域的知名天使投资机构独家领投,展现了资本市场对该企业创新实力的高度认可。据悉,所获资金将全面用于三大核心方向:一是加大核心技术研发投入,持续突破关键技术瓶颈;二是加速产品线扩充,推出更多满足市场需求的创新产品;三是拓展重点行业市场...
14:59
美国普渡大学于12月12日重磅宣布一项创新性教育改革:自2026年秋季学期起,西拉斐特与印第安纳波利斯两大校区的所有毕业生将必须满足一项全新要求——通过"AI工作能力达标"认证。这项具有里程碑意义的举措标志着高等教育领域对人工智能时代的积极回应,旨在全面提升学生对AI技术的认知水平与实践能力。 这项改革的核心目标在于培养学生在人工智能领域的批判性思维素养。通...