微新创想(idea2003.com) 7月31日讯:一项最新研究揭示了大型语言模型在不同语言处理上的成本差异,这一发现对于全球范围内的AI应用具有重要启示。研究指出,以OpenAI为代表的服务在处理英语输入和输出时成本最低,而其他语言则呈现出显著差异。具体而言,简体中文的处理成本约为英语的两倍,西班牙语则需1.5倍,而掸语更是高达15倍。

牛津大学的研究团队通过实验发现,一个大型语言模型处理一句缅甸语句子需要198个tokens,相比之下,同样的英语句子仅需17个tokens。Token作为衡量API访问大型语言模型(如OpenAI的ChatGPT或Anthropic的Claude 2)计算成本的基本单位,这一数据直观地表明,处理缅甸语句子的成本是英语的11倍。这种「标记化」模型的工作方式意味着,非英语语言在访问和训练时往往面临更高的经济门槛。

语言结构差异是造成成本差异的核心原因。以中文为例,其语法结构和字符数量与英语存在本质区别,导致标记化成本显著提高。OpenAI的GPT3 tokenizer数据显示,「your affection」这一词组在英语中仅需两个tokens,而在简体中文中却需要八个tokens。尽管英语文本有14个字符,但简体中文仅用4个字符就能表达相同含义,这种差异直接影响了计算资源的消耗。

微软在其ChatGPT模型API使用页面上提供了实用的标记化工具,帮助用户测试不同提示的成本。该工具显示,英语中1个token约等于4个字符,100个tokens则相当于75个英文单词。值得注意的是,这种线性关系并不适用于其他语言,微软对此有明确说明。

从成本效益角度来看,英语在人工智能领域展现出无与伦比的优势。以中文为例,其使用成本是英语的两倍。这一现象反映了当前AI公司训练模型时可用数据的分布情况。高质量紧急数据(如生活记录产生的数据)的价值在人工智能爆发期得到充分体现,这也直接关系到AI公司实现递归训练的愿景——即用自身输出训练AI模型。

若要实现这一目标,未来模型仍将延续英语的成本优势。其他语言由于复杂性和基础训练数据的局限性,标记化速率将持续偏高。进一步分析表明,除了标记化之外,其他成本衡量方法(如位数或字符计数)同样无法绕开这一困境。英语凭借其较高的「可压缩性」,在标记数量上始终处于领先地位,这并非货币化方式的问题,而是技术和基础模型训练中的真实局限。

值得注意的是,这一成本差异不仅存在于当前的大型语言模型,未来多语言模型也可能面临相同挑战。毕竟,这些模型大多采用相似的技术架构。考虑到ChatGPT等大型语言模型及Midjourney等生成式图像网络主要诞生于美国,成本差异已促使中国和印度等国家启动本土语言模型的研发计划。这些国家声称此举旨在配合以英语为基础的AI网络实现创新速度,而创新速度本身正受限于访问和训练成本。

在人工智能这一复杂而深远的领域,成本效益始终是关键考量因素。每个决策都需要谨慎权衡,因为微小的变化可能产生巨大的影响。语言处理成本问题不仅关乎经济效率,更反映了全球AI发展的不平衡现状。随着技术的不断进步,如何平衡成本与质量,将成为未来AI领域的重要课题。

最新快讯

2025年08月05日

06:14
2025年8月5日,北京时间,国际著名信用评级机构惠誉评级发布最新报告,宣布将英特尔公司的发行人违约评级(IDR)从原有级别下调至“BBB”级,同时对其前景展望调整为负面。这一重要评级调整,不仅标志着英特尔信用等级的首次下调,更凸显了市场对英特尔未来盈利能力及全球市场竞争力的深度忧虑。 此次评级下调,是惠誉基于对英特尔近期财务表现及行业发展趋势的综合评估...
06:14
2025年8月,美国科技股市场在波动性相对较低的背景下展现出温和上涨的态势,为看涨期权投资者创造了极具吸引力的风险收益比机会。值得注意的是,纳斯达克100指数的隐含波动率已回落至五年来的平均水平之下,这一有利条件显著提升了期权策略的成功率。特别是在8月与9月到期的、行权价合理的高行使价期权,其流动性表现尤为充沛,为投资者提供了充足的交易选择空间。 微软与Me...
06:14
2025年8月4日,随着纽约证券交易所收盘钟声敲响,美股市场期货板块迎来强劲反弹。各大主要股指期货全线飘红,展现出市场乐观情绪的显著回升。其中,标普500股指期货涨幅高达1.68%,道琼斯工业平均指数期货上涨1.54%,纳斯达克100股指期货更是劲增2.07%,表现尤为抢眼。值得注意的是,罗素2000股指期货以2.47%的惊人涨幅领跑市场,反映出成长型股票受...
06:14
2025年8月5日,通义实验室正式宣布开源其自主研发的首个图像生成基础模型——Qwen-Image。这款基于先进MMDiT架构的20B参数模型,在复杂文本渲染和精细图像编辑领域取得了突破性进展,为图像生成技术带来了全新的可能性。Qwen-Image的推出不仅标志着通义实验室在多模态AI研究上的又一里程碑,更将为整个图像生成领域注入强大的技术动力,推动多模态人...
06:14
2025年8月5日,韩国中央银行正式公布最新外汇储备数据,显示韩国7月份外汇储备规模成功突破4100亿美元大关,达到4113.3亿美元,较前值4102亿美元环比增长11.3亿美元。这一显著增长主要得益于美元资产收益的持续提升以及汇率市场的动态变化。具体来看,美元资产收益表现强劲,为外汇储备的增持提供了重要支撑,同时汇率波动也对储备规模产生了积极影响。此次外汇...
06:14
2025年8月5日,香港金融管理局果断采取行动,斥资64.29亿港元进行本币操作,以维护联系汇率制度的稳固运行。这一关键举措旨在有效应对近期外汇市场出现的显著波动,确保港元汇率能够精准维持在预设的目标区间内,从而捍卫香港金融体系的整体稳定性和市场信心。通过及时干预,金管局不仅稳定了市场预期,更向外界传递出坚定维护货币稳定的明确信号,彰显了其维护区域金融安全的...
06:14
2025年8月5日,全球金融市场传来积极信号,贵金属板块表现亮眼。COMEX黄金期货价格强势上涨0.85%,最终收报3428.6美元/盎司,展现出稳健的牛市趋势。与此同时,COMEX白银期货涨幅更为显著,劲增1.4%,报收37.445美元/盎司,市场对贵金属的避险需求与投机情绪同步升温。 此次贵金属价格上涨背后,多重因素交织影响。一方面,全球经济复苏步伐放缓...
06:14
近日,俄罗斯科学家发布最新监测数据,克柳切夫火山喷发出的羽流已攀升至9000米高空,形成壮观的自然奇观。这一高度不仅刷新了该火山近期喷发记录,也引起了全球火山学界的广泛关注。 此前,俄罗斯紧急情况部堪察加总局于2日紧急通报,该国多地火山活动频繁。除克柳切夫火山外,希韦卢奇火山、卡雷姆斯基火山等四座火山均监测到不同程度的喷发或潜在喷发活动。这些火山主要集中在堪...
06:14
2025年8月4日,一场由山火引发的浓烟风暴席卷了加拿大安大略省南部,多伦多等主要城市深受其害。空气质量监测数据显示,受烟雾影响,多伦多等地区的PM2.5浓度飙升至历史罕见水平,能见度在短时间内剧烈波动,城市景观被灰蒙蒙的雾霾笼罩。作为全球空气污染最严重的城市之一,多伦多已连续第三天发布特别空气质量声明,提醒市民注意健康风险。加拿大环境部紧急监测显示,烟雾导...
06:14
2025年8月5日,富时A50期指夜盘交易结束之际,指数录得0.01%的温和上涨,最终报收于13780点。这一微小的涨幅恰恰印证了当前市场整体运行态势的平稳与稳定,显示出投资者情绪的相对谨慎与市场的整体平衡状态。尽管涨跌幅不大,但这一表现依然为市场参与者提供了宝贵的参考信息,有助于更全面地把握市场动态与未来趋势。
06:14
8月5日凌晨,深圳市气象台紧急宣布,将此前生效的分区暴雨红色预警信号全面升级为全市范围。据最新监测数据显示,目前深圳全市大部分区域已遭遇暴雨乃至大暴雨袭击,雨势持续强劲。气象部门预测,未来一段时间强降雨仍将不断加码,给城市运行和市民生活带来严峻考验。 此次极端降雨过程可能引发一系列严重次生灾害。城市内涝风险急剧升高,部分低洼路段和地下设施面临被淹没威胁;山区...
06:14
2025年8月5日,拉美电商巨头MercadoLibre正式发布了其二季度财务报告,其净营收高达68亿美元,这一亮眼成绩不仅超越了市场分析师此前预测的65.9亿美元,更彰显了公司在拉美地区的蓬勃发展与市场领导力。 这一卓越业绩的背后,是MercadoLibre在拉美市场的持续深耕与战略布局。作为该地区领先的电商平台,MercadoLibre凭借其完善的服...