随着秋意渐浓,人工智能领域正掀起一场激烈的多模态模型之争。谷歌与OpenAI两大巨头在这场技术较量中展开了白热化竞争。就在不久前,谷歌向部分外部企业开放了其多模态大模型Gemini的试用权限。面对谷歌的强势出击,OpenAI显然不会甘居人后,正全力以赴将多模态功能整合进GPT-4,力求推出与Gemini媲美的多模态大模型,一举在AI领域占据制高点。

多模态技术的震撼亮相,可追溯至今年3月OpenAI的GPT-4发布会。当时,Greg Brockman亲自演示了这一神奇功能:只需在纸上画个草图,再拍张照片发送给GPT-4,并下达指令”按照这种布局做个网站”,系统便会迅速生成相应的网页代码。这一演示震惊了全球科技界,然而多模态功能此后却仿佛昙花一现,再未出现产品化的实际应用。如今,谷歌与OpenAI的多模态大战,终于拉开帷幕?

面对传闻中谷歌即将推出的这款”大杀器”,OpenAI显然不敢怠慢。据外媒The Information独家爆料,OpenAI正在紧锣密鼓研发一款代号为Gobi的新一代多模态大模型,计划在Gemini正式发布前抢占先机,以彻底击败谷歌。OpenAI的Greg Brockman与谷歌的Demis Hassabis,这两位AI领域的领军人物,正带领各自团队展开激烈角逐。

OpenAI在3月份推出GPT-4多模态功能后,已向Be My Eyes公司展示了这项技术,但尚未向其他企业开放。Be My Eyes公司专注于研发帮助视障人士改善视力的技术,这一合作显示出OpenAI对多模态应用场景的积极探索。近期,OpenAI计划更广泛地推出名为GPT-Vision的功能,但此前因担心视觉功能被不法分子利用(如自动破解验证码、追踪人类面部等)而有所延迟。不过,据称OpenAI的工程师们已解决了这些法律风险问题。谷歌方面同样重视安全防控,一位谷歌发言人表示,公司已采取措施防止Gemini被滥用,并承诺在所有产品中开发负责任的人工智能。

关于Gobi是否会成为传说中的GPT-5,目前尚无确切答案。与GPT-4不同,Gobi从一开始就是作为多模态模型设计的。DeepMind联合创始人、现Inflection AICEO Mustafa Suleyman在9月初的采访中透露,OpenAI正在秘密训练GPT-5,并暗示Sam Altman关于”没有训练GPT-5″的说法可能并不属实。尽管如此,Gobi的训练进度目前仍属保密。

另一方面,谷歌也在积极备战。据The Information报道,Gemini可能很快将进行测试发布,并集成到Google Cloud Vertex AI等服务中。在今年的谷歌I/O开发者大会上, Sundar Pichai曾详细介绍Gemini的多模态特性、高效集成工具和API功能。为了合力攻关,谷歌将谷歌大脑与DeepMind实验室合并,至少20位高管参与研发,包括DeepMind创始人Demis Hassabis和谷歌创始人Sergey Brin。DeepMind的数百名员工,包括前谷歌大脑主管Jeff Dean等顶尖人才,也加入了这一项目。

一位测试过Gemini的人士表示,该模型在理解用户意图方面比GPT-4更胜一筹,因为它不仅利用了公开网络信息,还整合了大量谷歌消费产品(搜索、YouTube)的专有数据。因此,Gemini产生的错误答案(即幻觉)似乎更少。据SemiAnalysis分析师爆料,Gemini已开始在算力高达~1e26 FLOPS的新TPUv5 Pod上进行训练,比GPT-4的训练算力高出5倍。其训练数据库包含YouTube上936亿分钟的视频字幕,总数据集规模约为GPT-4的两倍。据悉,谷歌下一代大模型可能采用MoE架构和投机采样技术,通过小模型提前生成token并传递给大模型进行评估,从而提高整体推理速度。

Gemini预计将花费数千万至数亿美元开发,与GPT-4的成本相当。DeepMind负责人Hassabis表示,Gemini将整合AlphaGo中使用的技术,将AlphaGo系统的规划、解决问题的能力与大语言模型的惊人语言能力相结合。此外,Gemini还将引入其他创新技术,包括DeepMind首创的强化学习技术。通过强化学习,AI能够通过反复尝试和接受反馈来调整自身表现,从而学会处理复杂问题。AlphaGo还使用了蒙特卡洛树搜索(MCTS)方法探索所有可能的棋盘动作,这些技术都将应用于Gemini的开发中。

谷歌希望Gemini能大幅提升软件开发人员的代码生成能力,以追赶微软的GitHub Copilot代码助手。内部讨论还涉及使用Gemini实现图表分析等功能,如解释图表含义、通过文本或语音指令浏览网页浏览器等。谷歌云开发者平台Google Cloud Vertex AI也将获得Gemini加持,支持大小版本,让开发人员可以在个人设备上运行付费购买的小模型。

在多模态模型竞赛中,OpenAI也不甘落后。7月,OpenAI宣布GPT-4 API全面可用,并计划在接下来几个月推出新模型。近日,许多用户收到了gpt-3.5-turbo-instruct新模型发布的邮件,替代了旧模型text-davinci-003。gpt-3.5-turbo-instruct是一款InstructGPT风格的模型,训练方式与text-davinci-003类似,采用提示词指令补全的方式使用。价格方面,gpt-3.5-turbo 4K保持与旧模型一致。有网友已开始使用最新模型进行国际象棋对弈,发现其表现令人惊叹。该模型轻松击败了Stockfish 4级(1700分),在5级(2000分)的比赛中仍保持强劲势头。它从不走非法棋步,善于使用开局牺牲,并展现出令人难以置信的卒与王将死技巧,允许对手毫无意义地晋级。网友使用PGN风格的提示模拟大师级游戏,发现纯Completion模型就取得了如此出色的表现。

值得一提的是,OpenAI即将在11月召开的首届开发者大会已经开始接受注册。这场多模态模型之争,不仅是技术实力的较量,更是AI发展方向的争夺。谷歌与OpenAI的这场AI版”iPhone与Android”对决,究竟谁将胜出?所有人都在屏息以待。

最新快讯

2026年02月11日

17:33
微新创想:斯柯达在欧洲预览全新纯电动城市跨界SUV Epiq 斯柯达近日在欧洲市场发布了全新纯电动城市跨界SUV Epiq的预告图,引发了广泛关注。这款车型作为斯柯达品牌推出的首款纯电车型,标志着其正式进军新能源市场。Epiq预计将在2026年上半年正式上市,成为斯柯达旗下最具性价比的纯电产品。 Epiq基于大众MEB+平台打造,拥有良好的兼容性和扩展性。该...
17:33
微新创想:2026年2月11日,区块链与现实世界资产(RWA)融合项目RubberVerseX(RVX)宣布完成200万美元战略融资 本轮融资由M2M Capital、HVS Ventures及BD Ventures联合投资 RVX致力于构建数字橡胶经济 通过区块链技术将天然橡胶种植 加工 贸易等实体产业链关键环节上链 提升透明度与流动性 此次融资将用于智能...
17:33
微新创想:2026年2月11日 日本开发商Kairosoft宣布经典模拟经营游戏《游戏发展国》在苹果App Store和谷歌Play商店开启限时免费领取活动 此次限时免费活动为全球玩家提供了难得的机会 使得这款曾经风靡一时的游戏再次受到关注 《游戏发展国》原价4.49美元 约合31.1元人民币 自2010年10月9日首次登陆移动平台以来 一直深受玩家喜爱 该...
17:33
微新创想:2026年1月,中国电解铝行业的平均含税完全成本环比下降0.6%,同比降幅达到19.5%。这一显著的成本下降主要得益于氧化铝和预焙阳极等主要原材料价格的回落。与此同时,SMM A00铝现货月均价为23641元/吨,环比上涨了1840元/吨。成本的降低与价格的上涨形成双重利好,使得行业平均利润攀升至7500元/吨。根据当月的现货均价计算,全国所有在产...
17:33
微新创想:2月11日16时40分,新疆巴音郭楞州尉犁县发生3.9级地震,震中位于北纬40.86度、东经84.07度。此次地震震源深度为26千米,属于浅源地震。根据中国地震台网的正式测定,目前尚未收到人员伤亡和财产损失的报告。地震发生后,当地相关部门迅速启动应急响应机制,组织人员对震情进行详细核查,并对可能存在的风险点展开全面排查。相关部门还加强了对群众的安抚...
17:32
微新创想:2026年2月11日,蔚蓝锂芯(002245.SZ)董事会审议通过终止参与格林美印尼项目增资扩股事项。公司原计划于2025年10月出资2000万美元,认购目标公司5.95%股权。这一决定是基于公司整体战略调整的考量。 微新创想:因格林美调整战略规划,经协商一致,各方签署终止契约书。此次终止并非由于任何一方违约,而是出于对市场环境和企业发展方向的重新...
17:32
微新创想:2026年2月11日 沃森生物公告拟联合国投创益、玉溪国有资本及央企乡村产业基金 共同设立云南创沃生物产业投资基金 基金总规模10亿元 沃森生物以自有资金认缴4.5亿元 作为有限合伙人 该基金将聚焦合成生物制造领域 重点布局合成生物学、生命大健康、生物农业、生物能源、生物材料及技术平台型企业 此举旨在强化公司在前沿生物技术领域的产业协同与战略卡位
17:32
微新创想:2026年2月11日 欧洲汽车电池公司(ACC)宣布搁置在意大利和德国建设电池超级工厂的计划 欧洲汽车电池公司(ACC)由Stellantis、梅赛德斯-奔驰与道达尔能源共同成立 旨在增强欧洲电动汽车电池供应链的自主性 此次决定源于Stellantis近期因电动车市场需求疲软 计提了220亿欧元的资产减值 并全面缩减了电动化投资 ACC CEO安东...
17:32
微新创想:2026年2月11日,Meta向Quest 3用户推送v85公共测试频道更新,新增了“Surface Keyboard”桌面虚拟键盘功能。这一创新功能允许用户在任意平整的表面上投射出可交互的虚拟键盘和触控板,从而实现更自然的输入体验。 微新创想:该虚拟键盘通过头显的摄像头技术,将物理表面转化为数字操作界面。用户可以在桌面上自由使用,无需额外设备即可...
17:32
微新创想:全民AI运动还在进行时。腾讯元宝的10亿红包雨进程过半,阿里千问免费请客计划也在继续,大家还在用支付宝扫福集福。今年五福变六福,蚂蚁AI健康应用阿福为大家新增健康福以及红包。除此之外,字节、百度等互联网公司也在花式参与其中。种种迹象表明,今年春节的AI含量绝对爆表,也是大厂争夺流量最为紧张的时刻。而从各家分解动作中,我们发现两个趋势:ChatGPT...
17:32
微新创想:2026年2月10日,QQ迎来27岁生日。这个几乎和中国互联网同龄的产品,从那只“嘀嘀嘀”叫的企鹅开始,一路见证了国内网民从拨号上网到5G时代的全部变迁。在很多人眼里,QQ是“青春纪念册”般的存在。70后在这里学会打字,80后在这里玩“偷菜”游戏、养宠物,90后在这里挂太阳升等级,00后、10后则在这里畅所欲言。 如今,当人们谈论社交产品时,往往第...
17:32
微新创想:据QuestMobile最新数据显示,2月7日,大模型应用千问的日活跃用户数(DAU)已正式突破7352万。这一数字不仅标志着千问在用户规模上的显著增长,也反映了其在人工智能领域日益增强的影响力。 在市场排名方面,千问App近期展现出极高的用户增长势头。随着人工智能技术的不断进步,越来越多的用户开始关注并尝试使用这类创新应用。千问凭借其强大的模型能...