随着秋意渐浓,人工智能领域正掀起一场激烈的多模态模型之争。谷歌与OpenAI两大巨头在这场技术较量中展开了白热化竞争。就在不久前,谷歌向部分外部企业开放了其多模态大模型Gemini的试用权限。面对谷歌的强势出击,OpenAI显然不会甘居人后,正全力以赴将多模态功能整合进GPT-4,力求推出与Gemini媲美的多模态大模型,一举在AI领域占据制高点。

多模态技术的震撼亮相,可追溯至今年3月OpenAI的GPT-4发布会。当时,Greg Brockman亲自演示了这一神奇功能:只需在纸上画个草图,再拍张照片发送给GPT-4,并下达指令”按照这种布局做个网站”,系统便会迅速生成相应的网页代码。这一演示震惊了全球科技界,然而多模态功能此后却仿佛昙花一现,再未出现产品化的实际应用。如今,谷歌与OpenAI的多模态大战,终于拉开帷幕?

面对传闻中谷歌即将推出的这款”大杀器”,OpenAI显然不敢怠慢。据外媒The Information独家爆料,OpenAI正在紧锣密鼓研发一款代号为Gobi的新一代多模态大模型,计划在Gemini正式发布前抢占先机,以彻底击败谷歌。OpenAI的Greg Brockman与谷歌的Demis Hassabis,这两位AI领域的领军人物,正带领各自团队展开激烈角逐。

OpenAI在3月份推出GPT-4多模态功能后,已向Be My Eyes公司展示了这项技术,但尚未向其他企业开放。Be My Eyes公司专注于研发帮助视障人士改善视力的技术,这一合作显示出OpenAI对多模态应用场景的积极探索。近期,OpenAI计划更广泛地推出名为GPT-Vision的功能,但此前因担心视觉功能被不法分子利用(如自动破解验证码、追踪人类面部等)而有所延迟。不过,据称OpenAI的工程师们已解决了这些法律风险问题。谷歌方面同样重视安全防控,一位谷歌发言人表示,公司已采取措施防止Gemini被滥用,并承诺在所有产品中开发负责任的人工智能。

关于Gobi是否会成为传说中的GPT-5,目前尚无确切答案。与GPT-4不同,Gobi从一开始就是作为多模态模型设计的。DeepMind联合创始人、现Inflection AICEO Mustafa Suleyman在9月初的采访中透露,OpenAI正在秘密训练GPT-5,并暗示Sam Altman关于”没有训练GPT-5″的说法可能并不属实。尽管如此,Gobi的训练进度目前仍属保密。

另一方面,谷歌也在积极备战。据The Information报道,Gemini可能很快将进行测试发布,并集成到Google Cloud Vertex AI等服务中。在今年的谷歌I/O开发者大会上, Sundar Pichai曾详细介绍Gemini的多模态特性、高效集成工具和API功能。为了合力攻关,谷歌将谷歌大脑与DeepMind实验室合并,至少20位高管参与研发,包括DeepMind创始人Demis Hassabis和谷歌创始人Sergey Brin。DeepMind的数百名员工,包括前谷歌大脑主管Jeff Dean等顶尖人才,也加入了这一项目。

一位测试过Gemini的人士表示,该模型在理解用户意图方面比GPT-4更胜一筹,因为它不仅利用了公开网络信息,还整合了大量谷歌消费产品(搜索、YouTube)的专有数据。因此,Gemini产生的错误答案(即幻觉)似乎更少。据SemiAnalysis分析师爆料,Gemini已开始在算力高达~1e26 FLOPS的新TPUv5 Pod上进行训练,比GPT-4的训练算力高出5倍。其训练数据库包含YouTube上936亿分钟的视频字幕,总数据集规模约为GPT-4的两倍。据悉,谷歌下一代大模型可能采用MoE架构和投机采样技术,通过小模型提前生成token并传递给大模型进行评估,从而提高整体推理速度。

Gemini预计将花费数千万至数亿美元开发,与GPT-4的成本相当。DeepMind负责人Hassabis表示,Gemini将整合AlphaGo中使用的技术,将AlphaGo系统的规划、解决问题的能力与大语言模型的惊人语言能力相结合。此外,Gemini还将引入其他创新技术,包括DeepMind首创的强化学习技术。通过强化学习,AI能够通过反复尝试和接受反馈来调整自身表现,从而学会处理复杂问题。AlphaGo还使用了蒙特卡洛树搜索(MCTS)方法探索所有可能的棋盘动作,这些技术都将应用于Gemini的开发中。

谷歌希望Gemini能大幅提升软件开发人员的代码生成能力,以追赶微软的GitHub Copilot代码助手。内部讨论还涉及使用Gemini实现图表分析等功能,如解释图表含义、通过文本或语音指令浏览网页浏览器等。谷歌云开发者平台Google Cloud Vertex AI也将获得Gemini加持,支持大小版本,让开发人员可以在个人设备上运行付费购买的小模型。

在多模态模型竞赛中,OpenAI也不甘落后。7月,OpenAI宣布GPT-4 API全面可用,并计划在接下来几个月推出新模型。近日,许多用户收到了gpt-3.5-turbo-instruct新模型发布的邮件,替代了旧模型text-davinci-003。gpt-3.5-turbo-instruct是一款InstructGPT风格的模型,训练方式与text-davinci-003类似,采用提示词指令补全的方式使用。价格方面,gpt-3.5-turbo 4K保持与旧模型一致。有网友已开始使用最新模型进行国际象棋对弈,发现其表现令人惊叹。该模型轻松击败了Stockfish 4级(1700分),在5级(2000分)的比赛中仍保持强劲势头。它从不走非法棋步,善于使用开局牺牲,并展现出令人难以置信的卒与王将死技巧,允许对手毫无意义地晋级。网友使用PGN风格的提示模拟大师级游戏,发现纯Completion模型就取得了如此出色的表现。

值得一提的是,OpenAI即将在11月召开的首届开发者大会已经开始接受注册。这场多模态模型之争,不仅是技术实力的较量,更是AI发展方向的争夺。谷歌与OpenAI的这场AI版”iPhone与Android”对决,究竟谁将胜出?所有人都在屏息以待。

最新快讯

2025年12月20日

10:37
微新创想12月20日重磅消息,华为官方今日正式官宣,备受瞩目的华为Pura X新年礼遇活动盛大开启,最高优惠额度高达800元,让消费者以更惊喜的价格体验旗舰折叠屏魅力。根据华为官网最新公布的信息,目前华为Pura X的起售价已降至6899元,具体价格体系如下: 12GB 256GB版本:原价7499元,现优惠价6899元 12GB 512GB版本:原价799...
10:37
微新创想12月20日深度报道 一位34岁男士近日分享了自己转型成为小区保安的新职业经历,这一选择在网络上引发了广泛的讨论和关注。该男士坦言,经过深思熟虑后决定更换职业赛道,选择在居住的小区担任保安一职。他表示,这一决定并非一时冲动,而是基于现实生活的理性考量。 这位男士透露,自己目前仍背负着9年的房贷压力,每月需承担2100元的还款任务。而新工作的薪资待遇...
10:36
微新创想12月19日重磅消息,人工智能大模型近年来风靡全球,催生了OpenAI等科技巨头,但它们的上市之路可能要晚于中国公司。北京智谱华章科技股份有限公司正蓄势待发,有望成为全球大模型领域的领跑者,率先登陆资本市场。今日,智谱华章正式发布IPO招股书,揭示了公司近年来惊人的增长轨迹:2022年、2023年、2024年收入分别为5740万元、1.245亿元、3...
10:36
微新创想12月19日重磅消息,在一加12周年庆典活动上,一加中国区总裁李杰正式官宣,品牌将在来年1月推出备受期待的一加Turbo系列新品。李杰在发布会上强调,该系列将全面继承一加旗舰产品的核心性能基因,更将搭载同档位中最领先的续航技术,以超越行业标准的表现,为用户带来前所未有的游戏体验。据李杰透露,一加Turbo系列的问世,必将重新定义行业同价位产品的性能与...
10:36
2025年12月20日,国家正式发布《互联网平台价格行为规则》,旨在规范电商领域价格秩序,防止恶性竞争扰乱市场。该规则明确指出,平台不得以低于成本价销售商品或服务的方式排挤竞争对手、独占市场,从而破坏正常经营秩序。这一举措对于维护公平竞争环境具有重要意义。 规则特别强调,平台不得强制或变相要求商家进行低价倾销,这种行为将严重影响市场公平竞争。不过,对于鲜活商...
10:36
2025年,上汽MG在欧洲市场的销量再创新高,成功突破30万辆大关。这一令人瞩目的成绩于12月20日正式公布,不仅彰显了MG品牌的强大市场号召力,更使其连续11年蝉联中国汽车品牌在欧洲销量榜的冠军宝座。这一辉煌里程碑的达成,主要归功于新能源车型的卓越表现和欧洲本地化渠道的深度拓展。MG在欧洲市场的持续深耕,不仅提升了品牌影响力,更以实实在在的销量数据,进一步...
10:36
2025年12月19日,备受瞩目的vivo X200T手机配置正式揭晓,消息源@yabhishekhd在X平台上发布了该机的完整规格参数。这款旗舰机型搭载了目前安卓阵营顶尖的联发科天玑9400+处理器,其强大的性能表现将为用户带来流畅顺滑的操作体验。 在屏幕方面,vivo X200T配备了6.67英寸的1.5K LTPS OLED直屏,采用先进的直屏设计,不...
10:36
2025年12月19日,迪士尼真人版《魔发奇缘》选角工作已进入白热化阶段,乐佩公主这一核心角色正由四位实力派女演员激烈角逐。据悉,试镜与化学反应测试近日在伦敦盛大举行,弗蕾亚·斯凯、莎拉·凯瑟琳·胡克、蒂根·克罗夫特以及奥莉维亚·米娅·贝瑞特四位候选人各展所长,展现对角色的深刻理解与独特诠释。与此同时,男主角弗林·莱德的选角竞争同样如火如荼,米洛·曼海姆等优...
10:06
2025年12月20日,微软正式发布革命性技术“硬件加速BitLocker”,旨在突破高性能NVMe SSD加密时长期存在的CPU性能瓶颈这一行业痛点。该创新解决方案通过将复杂的加密任务无缝迁移至存储设备硬件层面处理,实现了读写速度与未加密状态下原生性能的惊人接近,同时平均节省高达70%的CPU周期,显著提升系统整体能效并大幅延长笔记本电脑续航时间。 在安全...
09:36
Canonical官方于12月19日正式官宣,备受期待的Ubuntu 26.04 LTS桌面操作系统将于2026年4月23日正式发布,此次更新将采用"Resolute Raccoon"作为代号。据悉,该版本将全面搭载全新的Linux 6.20内核,尽管该内核版本在正式发布时可能仍处于候选阶段,但Canonical将采取强制集成措施,以确保用户能够获得最前沿的...
09:36
Digital Foundry近日发布了关于《最终幻想7重制版》在Switch 2平台试玩版表现的深度视频分析,为玩家们带来了宝贵的参考信息。测试结果显示,游戏在Switch 2上的帧率表现令人满意,基本稳定在30帧左右,为玩家提供了流畅的游戏体验。虽然掌机模式下偶尔会出现掉帧现象,但整体体验与PS4版本相近,让玩家无需过分担忧性能问题。 画质方面,得益于D...
09:36
2025年12月20日,海南自由贸易港迎来历史性时刻——正式实施封关运作,标志着跨境资金流动进入全新加速阶段。作为这一战略举措的重要支撑,多功能自由贸易账户(EF账户)自2024年5月试点上线以来,已展现出强大的应用潜力。数据显示,EF账户在贸易结算、投融资合作、跨境理财等多个场景中实现突破性应用,开户数量与业务量呈现高速增长态势。这一系列创新举措的核心目标...