字节豆包1.8包圆互联网 AI助手全面入侵多平台

2025-12-22 11:44:24 互联网 1 次阅读

豆包手机问世仅半月，字节跳动便迅速推出通用agent模型豆包1.8，标志着AI技术迈入现实应用新阶段。这款多模态大模型不仅能操作手机、电脑和浏览器，还能像人类一样理解屏幕界面，通过点击滑动完成复杂任务。字节此次大胆创新，将豆包的领地从手机端迅速扩展至PC端，未来更计划覆盖智能硬件和智能座舱，实现互联网入口的全面掌控。此前豆包手机已让字节成为移动互联网的焦点，微信、淘宝等超级APP明确拒绝其调用。如今豆包1.8的问世，无疑将这场竞争推向更高维度。

豆包1.8的多模态理解能力令人瞩目。模型能同时处理图像和视频内容，单次视频理解帧数从640帧提升至1280帧，可低帧率把握长视频整体脉络，在关键片段自动切换高帧率分析。官方演示中，豆包1.8通过分析篮球视频，精准提炼比赛核心内容。在ZeroBench评测中，其11.0分的成绩超越Gemini-3-Pro的10.0分，位居业界首位。ZeroBench作为极限视觉推理基准的核心测试，分数越高代表模型越能理解复杂视频。视觉推理任务中，豆包1.8在MathVista、MathVision和LogicVista测试中分别取得87.7、81.3和78.3分，虽略逊于Gemini-3-Pro，但已稳居第一梯队。视频理解方面，VideoHolmes、EgoTempo和MotionBench测试得分分别为65.5、67.0和70.6，长视频和流式视频处理能力同样出色。

豆包1.8的agent能力尤为突出。模型可执行代码、操作图形界面、调用各类工具，通过统一的agentic接口完成多步骤复杂任务。在BrowserComp-en搜索任务基准测试中，其67.6分的成绩表现稳定。字节技术报告显示，模型支持search、code execution、GUI interaction三种核心交互方式。基础能力测试中，豆包1.8在AIME-25、BeyondAIME、AMO-Bench和LiveCodeBench测试中分别获得94.3、77.0、60.0和79.5分，证明其底层能力扎实。字节还构建了覆盖教育、客服问答、复杂工作流等高价值场景的内部评测基准，豆包1.8在教育和客服问答测试中均取得最高分，验证了其实际业务表现。

豆包1.8提供四种thinking模式：no_think、think-low、think-medium、think-high，通过平衡延迟、计算成本和解决方案质量，满足不同任务需求。用户可根据任务复杂度选择模式，低算力模式适用于快速响应场景，高算力模式处理复杂任务。视觉编码优化显著降低了图像视频输入的token消耗。长上下文处理支持256K上下文长度，并配备原生API级上下文管理，体现了字节对实际应用场景的深度规划。

豆包1.8的能力范围远超手机助手，浏览器和PC端均可使用。字节正试图用AI技术覆盖整个互联网生态。近年来浏览器市场AI化趋势明显，Chrome、Edge等传统浏览器纷纷加入AI功能，Atlas、Disco等AI浏览器相继问世。Market.us数据显示，2024年全球AI浏览器市场规模约45亿美元，预计2034年将达768亿美元，年复合增长率达32.8%。豆包1.8的云端架构实现跨设备协同，用户可在手机下达指令，由电脑浏览器执行。例如浏览抖音时发现感兴趣内容，可让电脑浏览器自动打开手机视频，这种跨平台能力是传统浏览器AI化难以企及的。

字节此举暗合微软Windows成为”AI agent操作系统”的构想，但二者实现路径不同。微软需从底层改造系统架构，而豆包1.8作为外部代行者，更像是简化用户操作的外骨骼。为达成目标，豆包1.8在文字图表理解领域进行专项优化，能阅读复杂学术图表、数据可视化和技术文档示意图，在处理公式图表为主的学术论文时，可精准提取关键信息、理解图表含义并建立文字与图示的对应关系。针对PC端任务复杂性，模型加入并行思考机制，通过分配额外计算资源同时探索多个解决方案路径，最终选择最优解。旅行规划场景测试显示，豆包能综合处理地图、图片、文字描述等多模态信息，生成兼顾预算、时间、偏好的详细行程安排。

字节试图扩大AI蛋糕，但豆包手机引发的争议使其成为众矢之的。互联网商业逻辑显示，用户停留时间越长，广告收益越高。应用开发商通过优化界面和转化路径提升用户黏性，掌握应用即掌握用户。agent模型却颠覆这一逻辑——豆包1.8可调用十余个工具完成电商平台的全网比价和下单，用户无需打开淘宝等应用，只需告知需求，agent便会自动完成搜索比价筛选下单，全程无需接触应用界面，自然也看不到任何广告。实测中豆包1.8通过playwright MCP工具，可按指令筛选淘宝500-1000元销量第一的蓝牙耳机，再到唯品会、京东比价并完成加购。对用户是效率提升，对应用开发商则是巨大威胁。

更深远的影响在于用户认知转变。过去”购物用淘宝、打车用滴滴”的固定模式，将变为”向agent说明需求，由其选择服务”。应用从流量关口沦为agent可选工具，互联网统治权将从应用层转向模型层。豆包手机遭遇的封禁本质是应用开发商的防御反应，但能否持续取决于用户选择。若agent体验显著优于传统应用操作，APP开发商将被迫调整策略——或开放API接口，或保留部分广告展示，或转向服务收费。AI agent竞争日益激烈，智谱12月9日宣布开源核心AI agent模型AutoGLM，其能力与豆包手机助手相似，已支持微信、淘宝等50余个高频中文应用。AutoGLM-Phone-9B仅需36GB空间即可在手机本地运行，采用MIT和Apache-2.0双许可证，任何人可免费用于商业用途。

移动互联网时代谷歌凭借开源Android建立庞大生态，智谱显然想复制这一路径。从技术实现看，豆包与AutoGLM的核心壁垒与大模型相同，腾讯、阿里等互联网大厂都掌握门票。但行业竞争的关键在于能否让agent与现有APP生态共存。字节既拥有模型能力，也拥有抖音、今日头条等流量大户，可先在自身应用中测试agent能力再向外扩展。云端架构使字节能快速迭代，豆包手机上线半月即推出多次更新，这种速度是传统硬件厂商难以企及的。豆包1.8是字节探索性尝试的证明，展示了AI改变互联网的可能性，但距离成熟产品仍有距离。最终能走多远，取决于字节在技术、生态、商业模式上能否实现更多突破。

2025年12月22日

12:40

字节豆包1.8包圆互联网 AI助手全面入侵多平台

最新快讯

2025年12月22日

易择智擎获光点梅花清石投资完成种子轮 AI商用机器人引关注

飒智智能连续获A++A+++轮数亿融资专注AI机器人技术研发

百度优步合作英国试点自动驾驶出租车推动共享出行

韩国2026将推手机办卡人脸识别新规

优派27英寸2K显示器1292元享补贴VRR快充色域广

海口“十五五”规划建议扩大多功能FT账户惠及范围

广州“十五五”规划：打造国际消费中心城市新引擎

广州“十五五”规划：打造金融强市构建现代金融服务体系

小鹏MONA M03电池续航升级 485-640km新选择

曜越斗龙DRAGON+1250W金牌全模组电源评测

百明信康获超3亿D+轮融资加速过敏免疫疗法布局

泽璟制药成功递交港交所招股书专注肿瘤创新药研发