
豆包手机问世仅半月,字节跳动便迅速推出通用agent模型豆包1.8,标志着AI技术迈入现实应用新阶段。这款多模态大模型不仅能操作手机、电脑和浏览器,还能像人类一样理解屏幕界面,通过点击滑动完成复杂任务。字节此次大胆创新,将豆包的领地从手机端迅速扩展至PC端,未来更计划覆盖智能硬件和智能座舱,实现互联网入口的全面掌控。此前豆包手机已让字节成为移动互联网的焦点,微信、淘宝等超级APP明确拒绝其调用。如今豆包1.8的问世,无疑将这场竞争推向更高维度。

豆包1.8的多模态理解能力令人瞩目。模型能同时处理图像和视频内容,单次视频理解帧数从640帧提升至1280帧,可低帧率把握长视频整体脉络,在关键片段自动切换高帧率分析。官方演示中,豆包1.8通过分析篮球视频,精准提炼比赛核心内容。在ZeroBench评测中,其11.0分的成绩超越Gemini-3-Pro的10.0分,位居业界首位。ZeroBench作为极限视觉推理基准的核心测试,分数越高代表模型越能理解复杂视频。视觉推理任务中,豆包1.8在MathVista、MathVision和LogicVista测试中分别取得87.7、81.3和78.3分,虽略逊于Gemini-3-Pro,但已稳居第一梯队。视频理解方面,VideoHolmes、EgoTempo和MotionBench测试得分分别为65.5、67.0和70.6,长视频和流式视频处理能力同样出色。
豆包1.8的agent能力尤为突出。模型可执行代码、操作图形界面、调用各类工具,通过统一的agentic接口完成多步骤复杂任务。在BrowserComp-en搜索任务基准测试中,其67.6分的成绩表现稳定。字节技术报告显示,模型支持search、code execution、GUI interaction三种核心交互方式。基础能力测试中,豆包1.8在AIME-25、BeyondAIME、AMO-Bench和LiveCodeBench测试中分别获得94.3、77.0、60.0和79.5分,证明其底层能力扎实。字节还构建了覆盖教育、客服问答、复杂工作流等高价值场景的内部评测基准,豆包1.8在教育和客服问答测试中均取得最高分,验证了其实际业务表现。

豆包1.8提供四种thinking模式:no_think、think-low、think-medium、think-high,通过平衡延迟、计算成本和解决方案质量,满足不同任务需求。用户可根据任务复杂度选择模式,低算力模式适用于快速响应场景,高算力模式处理复杂任务。视觉编码优化显著降低了图像视频输入的token消耗。长上下文处理支持256K上下文长度,并配备原生API级上下文管理,体现了字节对实际应用场景的深度规划。
豆包1.8的能力范围远超手机助手,浏览器和PC端均可使用。字节正试图用AI技术覆盖整个互联网生态。近年来浏览器市场AI化趋势明显,Chrome、Edge等传统浏览器纷纷加入AI功能,Atlas、Disco等AI浏览器相继问世。Market.us数据显示,2024年全球AI浏览器市场规模约45亿美元,预计2034年将达768亿美元,年复合增长率达32.8%。豆包1.8的云端架构实现跨设备协同,用户可在手机下达指令,由电脑浏览器执行。例如浏览抖音时发现感兴趣内容,可让电脑浏览器自动打开手机视频,这种跨平台能力是传统浏览器AI化难以企及的。

字节此举暗合微软Windows成为”AI agent操作系统”的构想,但二者实现路径不同。微软需从底层改造系统架构,而豆包1.8作为外部代行者,更像是简化用户操作的外骨骼。为达成目标,豆包1.8在文字图表理解领域进行专项优化,能阅读复杂学术图表、数据可视化和技术文档示意图,在处理公式图表为主的学术论文时,可精准提取关键信息、理解图表含义并建立文字与图示的对应关系。针对PC端任务复杂性,模型加入并行思考机制,通过分配额外计算资源同时探索多个解决方案路径,最终选择最优解。旅行规划场景测试显示,豆包能综合处理地图、图片、文字描述等多模态信息,生成兼顾预算、时间、偏好的详细行程安排。
字节试图扩大AI蛋糕,但豆包手机引发的争议使其成为众矢之的。互联网商业逻辑显示,用户停留时间越长,广告收益越高。应用开发商通过优化界面和转化路径提升用户黏性,掌握应用即掌握用户。agent模型却颠覆这一逻辑——豆包1.8可调用十余个工具完成电商平台的全网比价和下单,用户无需打开淘宝等应用,只需告知需求,agent便会自动完成搜索比价筛选下单,全程无需接触应用界面,自然也看不到任何广告。实测中豆包1.8通过playwright MCP工具,可按指令筛选淘宝500-1000元销量第一的蓝牙耳机,再到唯品会、京东比价并完成加购。对用户是效率提升,对应用开发商则是巨大威胁。

更深远的影响在于用户认知转变。过去”购物用淘宝、打车用滴滴”的固定模式,将变为”向agent说明需求,由其选择服务”。应用从流量关口沦为agent可选工具,互联网统治权将从应用层转向模型层。豆包手机遭遇的封禁本质是应用开发商的防御反应,但能否持续取决于用户选择。若agent体验显著优于传统应用操作,APP开发商将被迫调整策略——或开放API接口,或保留部分广告展示,或转向服务收费。AI agent竞争日益激烈,智谱12月9日宣布开源核心AI agent模型AutoGLM,其能力与豆包手机助手相似,已支持微信、淘宝等50余个高频中文应用。AutoGLM-Phone-9B仅需36GB空间即可在手机本地运行,采用MIT和Apache-2.0双许可证,任何人可免费用于商业用途。
移动互联网时代谷歌凭借开源Android建立庞大生态,智谱显然想复制这一路径。从技术实现看,豆包与AutoGLM的核心壁垒与大模型相同,腾讯、阿里等互联网大厂都掌握门票。但行业竞争的关键在于能否让agent与现有APP生态共存。字节既拥有模型能力,也拥有抖音、今日头条等流量大户,可先在自身应用中测试agent能力再向外扩展。云端架构使字节能快速迭代,豆包手机上线半月即推出多次更新,这种速度是传统硬件厂商难以企及的。豆包1.8是字节探索性尝试的证明,展示了AI改变互联网的可能性,但距离成熟产品仍有距离。最终能走多远,取决于字节在技术、生态、商业模式上能否实现更多突破。

