豆包在超能创意1.0发布两个月后,正式开启超能创意2.0的灰度测试。这一版本在模糊意图处理能力上实现重大突破,不仅能精准解析图片细节,通过一句话即可实现图片复刻,还能将不同参考图的灵感元素进行融合,创作出全新图像。更令人惊喜的是,用户只需提供一组人物图片,豆包就能据此生成绘本故事。
超能创意2.0的图片复刻功能令人印象深刻,而豆包的进阶之处远不止于此。它新增了视频解析能力,支持用户上传视频或链接,自动提取逐字稿,甚至能拆解视频的分镜、脚本和剪辑手法。虽然逐字稿提取效果显著,但剪辑手法的拆解尚显模糊,暂时无法满足用户复刻需求。总体而言,超能创意2.0较1.0版本实现了质的飞跃,这得益于豆包大模型1.6版本的强大支持。该版本支持深度思考、多模态理解和复杂Agent构建,为超能创意2.0的突破奠定了基础。
此外,超能创意2.0还集成了seedream3.0图片生成模型、seededit3.0图片编辑模型和seedance1.0Pro视频生成模型,进一步强化了创作能力。过去几个月,豆包陆续推出AI播客、应用创造1.0、视频通话等创新功能。其中,视频通话与其他基础能力拓展类似,而AI播客、应用创造等则属于场景化Agent,在基础能力上实现了产品化优化。AI编程支持可视化编辑等功能的加入,让豆包的使用体验更加完善。
豆包正在从最初的社交聊天机器人,逐步演变为”AI助理+AI办公桌面”的组合。AI助理以移动设备为载体,实现更随身、更人性化的沟通;AI办公桌面则依托PC等设备,满足复杂需求。这种双重定位解释了豆包App和电脑版的不同使用感受——App更像是AI伙伴,适合闲聊和互动;电脑版则更偏向效率工具,提供任务执行平台。
豆包的AI体系由火山引擎提供的云设施作为基础,豆包大模型作为核心,”AI助理+AI办公桌面”的应用形态,以及抖音、耳机、眼镜等终端设备共同构成。豆包应用在其中发挥着承上启下的关键作用:向上,它将豆包大模型的能力场景化、实用化;向下,它串联起字节旗下不同的C端产品。这一布局彰显了字节作为AI厂商的雄心与完整思考体系。
豆包的演变路径颇具启示意义。从诞生之初至今,其核心定位始终是长期陪伴用户的助理。随着大模型能力的提升,豆包逐渐成长出更丰富的能力,开始扮演更多角色。这种发展轨迹与人类从婴儿到融入社会的成长过程相似,决定了豆包会优先发展聊天能力。早期,豆包以”打电话”式交互提供陪伴,团队将其定位为AI社交产品。尽管后来拓展出聊天机器人生态,但豆包App仍更偏向角色扮演而非任务处理。
随着大模型能力的突破,豆包开始融合文生图、文生视频、音乐生成等能力,并推出电脑版这一效率优先的产品形态。DeepSeek的爆发加速了AI从有趣向有用的转变,视频通话等新功能应运而生。在深度理解技术的支持下,豆包开始开发创意生图、代码编写等场景化工具,实现了从社交产品到效率工具的跨越。
豆包App和电脑版的差异化定位进一步明确:App是强调陪伴的随身AI助手,适合轻量化任务;电脑版则是强调效率的AI办公桌面,处理复杂需求。App界面突出拟人化交互,提供生活化功能;电脑版则聚焦任务执行,隐藏聊天机器人入口。这种”AI助手+AI办公桌面”的组合更适配当前载体形态。
作为AI助手,豆包已融入抖音、浏览器、智能耳机、智能眼镜等终端,随时可用;作为AI办公桌面,它主要出现在电脑版和网页版,更适合复杂工作场景。这种软硬结合的形态既符合用户习惯,也为Agent提供了自由画布。
在to C领域,豆包是字节AI体系的核心,兼具AI助手和AI办公桌面的双重角色,并串联起字节不同C端入口。一方面,豆包强调拟人化,打造像贾维斯一样的AI助手,构建长期情感壁垒;另一方面,它以AI为核心,通过App、网页、硬件、Copilot等端口形态输出能力,展现类似Gemini的雄心。字节正围绕豆包搭建AI完整体系,包括流量入口打通和硬件研发。
与Ola Friend的合作是豆包融合AI硬件的初次尝试,虽然市场反响平平,但积累了宝贵经验。眼镜可能是更适合豆包的硬件载体,字节已在研发无显示模组的AI眼镜和MR眼镜。若眼镜成为PC之外的另一大屏,豆包的助手和桌面角色将在移动端统一,形成软硬结合的完整体。
相较Google,字节在模型能力、硬件系统、入口能力上仍有提升空间。但豆包的持续进化验证了字节的优势:火山引擎的模型研发与产品开发协同机制,使其能快速将模型能力与场景需求结合。梁汝波表示,字节要成为优秀的创新科技公司,而豆包正是这种创新能力的核心出口。数据显示,豆包季度平均投流费用达1.5225亿元,活跃用户数达1.31亿,持续增长。这一投入彰显了豆包作为系统级能力的战略地位,但如何实现全面串联仍是未来挑战。