OpenAI加急研发Gobi多模态大模型对抗谷歌Gemini引发AI大战

2023-09-20 10:02:11 互联网 29 次阅读

随着秋意渐浓，人工智能领域正掀起一场激烈的多模态模型之争。谷歌与OpenAI两大巨头在这场技术较量中展开了白热化竞争。就在不久前，谷歌向部分外部企业开放了其多模态大模型Gemini的试用权限。面对谷歌的强势出击，OpenAI显然不会甘居人后，正全力以赴将多模态功能整合进GPT-4，力求推出与Gemini媲美的多模态大模型，一举在AI领域占据制高点。

多模态技术的震撼亮相，可追溯至今年3月OpenAI的GPT-4发布会。当时，Greg Brockman亲自演示了这一神奇功能：只需在纸上画个草图，再拍张照片发送给GPT-4，并下达指令”按照这种布局做个网站”，系统便会迅速生成相应的网页代码。这一演示震惊了全球科技界，然而多模态功能此后却仿佛昙花一现，再未出现产品化的实际应用。如今，谷歌与OpenAI的多模态大战，终于拉开帷幕？

面对传闻中谷歌即将推出的这款”大杀器”，OpenAI显然不敢怠慢。据外媒The Information独家爆料，OpenAI正在紧锣密鼓研发一款代号为Gobi的新一代多模态大模型，计划在Gemini正式发布前抢占先机，以彻底击败谷歌。OpenAI的Greg Brockman与谷歌的Demis Hassabis，这两位AI领域的领军人物，正带领各自团队展开激烈角逐。

OpenAI在3月份推出GPT-4多模态功能后，已向Be My Eyes公司展示了这项技术，但尚未向其他企业开放。Be My Eyes公司专注于研发帮助视障人士改善视力的技术，这一合作显示出OpenAI对多模态应用场景的积极探索。近期，OpenAI计划更广泛地推出名为GPT-Vision的功能，但此前因担心视觉功能被不法分子利用（如自动破解验证码、追踪人类面部等）而有所延迟。不过，据称OpenAI的工程师们已解决了这些法律风险问题。谷歌方面同样重视安全防控，一位谷歌发言人表示，公司已采取措施防止Gemini被滥用，并承诺在所有产品中开发负责任的人工智能。

关于Gobi是否会成为传说中的GPT-5，目前尚无确切答案。与GPT-4不同，Gobi从一开始就是作为多模态模型设计的。DeepMind联合创始人、现Inflection AICEO Mustafa Suleyman在9月初的采访中透露，OpenAI正在秘密训练GPT-5，并暗示Sam Altman关于”没有训练GPT-5″的说法可能并不属实。尽管如此，Gobi的训练进度目前仍属保密。

另一方面，谷歌也在积极备战。据The Information报道，Gemini可能很快将进行测试发布，并集成到Google Cloud Vertex AI等服务中。在今年的谷歌I/O开发者大会上， Sundar Pichai曾详细介绍Gemini的多模态特性、高效集成工具和API功能。为了合力攻关，谷歌将谷歌大脑与DeepMind实验室合并，至少20位高管参与研发，包括DeepMind创始人Demis Hassabis和谷歌创始人Sergey Brin。DeepMind的数百名员工，包括前谷歌大脑主管Jeff Dean等顶尖人才，也加入了这一项目。

一位测试过Gemini的人士表示，该模型在理解用户意图方面比GPT-4更胜一筹，因为它不仅利用了公开网络信息，还整合了大量谷歌消费产品（搜索、YouTube）的专有数据。因此，Gemini产生的错误答案（即幻觉）似乎更少。据SemiAnalysis分析师爆料，Gemini已开始在算力高达~1e26 FLOPS的新TPUv5 Pod上进行训练，比GPT-4的训练算力高出5倍。其训练数据库包含YouTube上936亿分钟的视频字幕，总数据集规模约为GPT-4的两倍。据悉，谷歌下一代大模型可能采用MoE架构和投机采样技术，通过小模型提前生成token并传递给大模型进行评估，从而提高整体推理速度。

Gemini预计将花费数千万至数亿美元开发，与GPT-4的成本相当。DeepMind负责人Hassabis表示，Gemini将整合AlphaGo中使用的技术，将AlphaGo系统的规划、解决问题的能力与大语言模型的惊人语言能力相结合。此外，Gemini还将引入其他创新技术，包括DeepMind首创的强化学习技术。通过强化学习，AI能够通过反复尝试和接受反馈来调整自身表现，从而学会处理复杂问题。AlphaGo还使用了蒙特卡洛树搜索（MCTS）方法探索所有可能的棋盘动作，这些技术都将应用于Gemini的开发中。

谷歌希望Gemini能大幅提升软件开发人员的代码生成能力，以追赶微软的GitHub Copilot代码助手。内部讨论还涉及使用Gemini实现图表分析等功能，如解释图表含义、通过文本或语音指令浏览网页浏览器等。谷歌云开发者平台Google Cloud Vertex AI也将获得Gemini加持，支持大小版本，让开发人员可以在个人设备上运行付费购买的小模型。

在多模态模型竞赛中，OpenAI也不甘落后。7月，OpenAI宣布GPT-4 API全面可用，并计划在接下来几个月推出新模型。近日，许多用户收到了gpt-3.5-turbo-instruct新模型发布的邮件，替代了旧模型text-davinci-003。gpt-3.5-turbo-instruct是一款InstructGPT风格的模型，训练方式与text-davinci-003类似，采用提示词指令补全的方式使用。价格方面，gpt-3.5-turbo 4K保持与旧模型一致。有网友已开始使用最新模型进行国际象棋对弈，发现其表现令人惊叹。该模型轻松击败了Stockfish 4级（1700分），在5级（2000分）的比赛中仍保持强劲势头。它从不走非法棋步，善于使用开局牺牲，并展现出令人难以置信的卒与王将死技巧，允许对手毫无意义地晋级。网友使用PGN风格的提示模拟大师级游戏，发现纯Completion模型就取得了如此出色的表现。

值得一提的是，OpenAI即将在11月召开的首届开发者大会已经开始接受注册。这场多模态模型之争，不仅是技术实力的较量，更是AI发展方向的争夺。谷歌与OpenAI的这场AI版”iPhone与Android”对决，究竟谁将胜出？所有人都在屏息以待。

2026年02月11日

23:04

OpenAI加急研发Gobi多模态大模型对抗谷歌Gemini引发AI大战

最新快讯

2026年02月11日

美格智能通过港交所上市聆讯深圳AIoT企业开启港股征程

豆包App上线Seedance 2.0视频生成模型灰度测试

京新药业冲刺港交所上市拓展国际融资助力创新药全球化布局

富士X-Pro 4项目重启或于10月发布高像素传感器升级

影石创新发布首款双持云台相机Luna 2026上半年亮相

国家电网1月充电量7.18亿千瓦时同比增长9.71% 春运充电保障启动

理想汽车超充站突破4000座覆盖全国31省289城实现高效补能

DeepSeek最新更新非V4但实力飞跃编程测试全面升级

理想超充站突破4000座覆盖全国31省289城解决长途补能焦虑

春节聚餐酒后身亡同桌好友是否担责法院判决结果公布

京东AI付全新上线语音支付安全便捷引领未来支付新体验

人中之龙极3外传Dark Ties明日全平台发售 2026年2月12日上线

OpenAI加急研发Gobi多模态大模型 对抗谷歌Gemini引发AI大战

最新快讯

2026年02月11日

OpenAI加急研发Gobi多模态大模型对抗谷歌Gemini引发AI大战