声明:本文源自微信公众号量子位(ID:QbitAI),作者QbitAI,经微新创想授权转载发布。腾讯混元大模型再添新功能!发布仅两个月,混元大模型便迎来全新升级,不仅语言模型性能大幅提升,更悄然上线了AIGC领域最火爆的文生图功能。与Midjourney独立出图不同,混元文生图实现了与对话功能的完美融合,用户可边聊边画,体验与DALL·E3相似。已通过测试的用户可立即体验,排队用户也无需等待,我们已抢先实测了热门效果,现分享给大家。

混元文生图上手实测

根据腾讯官方介绍,混元大模型文生图的核心优势体现在三方面:真实感、中文理解力、风格多样性。接下来,我们将逐一验证其表现。

首先测试人像生成能力,复刻Midjourney爆火的“写实90年代北京情侣”效果。请生成一张摄影风格照片,场景设定为20世纪90年代北京,一位男性和一位女性面带微笑坐在屋顶,身着夹克和牛仔裤,周围环绕着建筑群。真实感表现令人满意,写实风格的人像生成精准,人物姿态自然,亚洲人脸特征与国外AI生成效果相比更加真实。小技巧提示:若想获得写实风格,建议使用“生成一张……”指令,而“画一张……”则可能生成插画风格。

写实人像表现优异,接下来测试风景生成能力。混元大模型不仅支持通用风景描述,还能指定真实景点,如“桂林山水”或“长城”。虽然AI生成图像与真实景观存在差异,但整体效果令人满意。更具挑战性的是场景组合,尝试生成“桂林山水中融入长城”的摄影风格图像,要求高度细节。混元大模型成功完成了这一离奇需求,甚至还原了水面波纹,证明其不仅重现训练数据,更具备独立理解概念的能力。

接下来挑战更复杂的概念,曾因不理解中文菜名闹出笑话的AI,经过半年发展已显著进步。“红烧狮子头”不再出现狮子,“夫妻肺片”也不会变成恐怖片,甚至看起来相当诱人。比菜名更具挑战的是古诗词,尝试生成“孤舟蓑笠翁,独钓寒江雪”的水墨画风格图像。整体效果不错,但存在小瑕疵:一张图中缺少“舟”,另一张舟上坐了两位“翁”,未能体现孤独意境。诗词这种凝练语言对AI仍有一定难度。

但别担心,混元助手同时具备聊天对话能力,支持多轮交互。借助强大的语言模型,我们找到了解决方案。通过使用“这些要求”、“上述要求”等指代词,实现两个功能的联动。再次生成图像时效果更稳定,并增加了雪花飘落细节。建议将此指令保存为快捷方式,从对话框右侧的魔法棒图标快速调用,只需修改描述内容即可。此外,支持一键分享至微信,4张图可同时分享让好友选择,无需反复截图。点击分享链接可放大查看图像,并开启新对话。

混元大模型在中文理解能力上表现突出,风格多样性同样令人印象深刻。作为腾讯出品,游戏插画风格自然不在话下,如赛博朋克风。初步效果不错,但仍有提升空间。结合语言模型明确风格特点,并手动添加细节,效果更佳。测试多种游戏画风,从3D到2D甚至像素风格,混元助手都能完美驾驭。同一主题和风格限定下,也能呈现不同画风,Furry爱好者可喜大普奔。

腾讯透露,内部多个场景已应用混元大模型文生图能力。虽然具体应用方式未知,但测试发现用《王者荣耀》作为风格限定词也能被理解。除了游戏场景,广告场景也能发挥真实感优势。腾讯的内容业务同样受益,玄幻小说插图效果出色。

这样的文生图效果背后究竟有何原理?业界已有不少开源文生图模型,腾讯是基于现有方案改进,还是完全自研?我们与混元大模型文生图技术负责人芦清林深入交流,了解技术细节。

模型全自研,用20亿+图文数据锤炼

芦清林表示,从算法、数据系统到工程平台,腾讯混元大模型文生图功能完全自研,确保生成自由度和数据安全,更符合用户需求。当前文生图模型普遍存在三个难点:语义理解差、构图不合理、画面细节无质感。

语义理解方面,模型难以理解中文,尤其是中英文混杂的描述。业界普遍采用CLIP算法,但存在两个问题:未建模中文语言,中文输入依赖翻译导致错误(如“红烧狮子头”生成狮子);图文对齐能力不足。构图方面,直接基于开源扩散模型可能生成“三只手”等异形。画面细节方面,开源模型因数据集分辨率和质量问题,生成图像清晰度不足。

为解决这些问题,腾讯混元团队采用三类模型组合“逐个击破”。语义理解上,自研跨模态预训练大模型,实现中英文、图像三者的跨模态对齐。生成构图上,采用扩散模型与Transformer混合架构,巧妙运用旋转位置编码技术,既掌握全局信息又理解局部细节。画面细节上,自研超分辨率模型并结合多种算法优化,提升图像质感。该架构不仅能生成1024×1024分辨率的图片,微调后还能支持图生图、文生视频。

数据是文生图质量的关键。OpenAI在DALL·E3论文中强调数据对指令跟随的重要性。腾讯同样重视数据,自研了三方面技术提升数据质量。

数据质量上,通过改善图-文数据集中的文本描述,提升图文相关性。数据效果上,对训练数据进行“金银铜”分层,20+亿青铜数据用于预训练,6亿+白银数据提升生成质量,1.12亿+黄金数据用于精调训练。数据效率上,建立数据飞轮自动化构建训练数据,加快模型迭代,解决数据长尾场景难题,如及时更新“玲娜贝儿”等新词。

工程平台是算法和数据的结合体。腾讯自研Angel机器学习平台,包括训练框架AngelPTM和推理框架AngelHCF。训练上,基于4D并行+ZeROCache机制实现千亿参数混元大模型的快速训练,AngelPTM速度比业界主流框架DeepSpeed-Chat快1倍。推理上,AngelHCF支持多种并行能力、服务部署管理、自研模型无损量化,速度提升1.3倍。Angel平台还升级了混元语言模型,代码能力显著提升。

混元大模型代码能力实测

首先测试代码生成能力,以帮老师写“随机点名程序”为例。混元大模型迅速生成带注释的完整代码:

“`python
import random
#假设班级里有50个学生,这里是他们的学号
student_ids = [‘001′,’002′,’003′,’004′,’005′,’006′,’007′,’008′,’009′,’010’,
‘011’,’012′,’013′,’014′,’015′,’016′,’017′,’018′,’019′,’020′,
‘021’,’022′,’023′,’024′,’025′,’026′,’027′,’028′,’029′,’030′,
‘031’,’032′,’033′,’034′,’035′,’036′,’037′,’038′,’039′,’040′,
‘041’,’042′,’043′,’044′,’045′,’046′,’047′,’048′,’049′,’050′]
#使用random.choice()函数从学生学号列表中随机选择一个学生
random_student_id = random.choice(student_ids)
#打印随机选中的学生学号
print(“随机抽取的学生学号是:”, random_student_id)
“`

代码运行流畅,每次都能抽取不同学生。更惊喜的是,混元大模型还能帮忙查代码bug,成为程序员省心利器。

现在,无论是文生图还是代码能力,都已在腾讯混元助手中开放体验。

最新快讯

2026年02月07日

02:43
2026年2月6日,法国达能公司在荷兰主动召回多个批次诺优能婴幼儿配方奶粉。此次行动系因欧盟最新下调蜡样芽孢杆菌毒素限值,达能经与荷兰食品安全主管部门协调后实施。召回范围限于在荷销售的特定批次产品,不涉及其他国家市场。公司表示已启动追溯与消费者通知机制,并强调问题产品尚未报告健康损害案例。
02:43
2月7日,英伟达CEO黄仁勋在公开表态中指出,Anthropic和OpenAI目前已实现盈利。他强调,当前大规模人工智能资本支出既合理又必要,以支撑长期技术基础设施建设。黄仁勋判断,构建完整、可靠的人工智能生态体系需7至8年时间。该言论发布于北京时间2026年2月7日,反映了头部企业对AI产业化进程的阶段性评估与战略预判。
02:43
2026年2月7日,英伟达首席执行官黄仁勋公开表示,公司与OpenAI之间不存在任何矛盾纷争。他强调,OpenAI正积极采用英伟达最新一代AI芯片以支撑其大模型研发与部署。此举凸显双方在高性能计算与人工智能基础设施领域的深度合作。黄仁勋未透露具体芯片型号及供货细节,但确认合作持续稳定推进。
00:11
2026年1月13日,沪铝主力合约价格首次突破2.5万元/吨,创历史纪录。受下游建筑、轨道交通等领域订单增长推动,云南多家电解铝企业满负荷运行。以云南铝业为例,其年产能308万吨,铝锭日产量约3500吨,当前实现当日生产、当日发运,库存为零。满产状态自2026年初持续至今,反映终端需求强劲及供应链高效运转。
00:11
2026年2月6日,特斯拉副总裁陶琳在北京交流会上宣布公司2026年战略方向。针对近期马斯克团队来华考察供应链引发的猜测,陶琳明确表示,该行动“应该不是关于特斯拉的,可能是SpaceX或其他项目”。她强调,特斯拉坚持全球采购策略,以成本、稳定性与交付效率为综合评估标准。据悉,2月4日起,马斯克旗下SpaceX与特斯拉团队分别摸底中国光伏产业链,其中Spac...
00:10
2月6日,比特币价格升破68000美元,延续此前一日暴跌后的修复性反弹。此次上涨发生于全球加密市场交易时段,主要受短期空头回补及部分机构逢低买入推动。分析指出,反弹并非趋势反转信号,仍需观察后续能否站稳67500美元关键支撑位。截至当日午后,比特币报68120美元,24小时涨幅约7.3%。

2026年02月06日

23:10
2026年2月6日,中科院地质与地球物理研究所刘传周、吴福元团队在青藏高原蛇绿岩微观包裹体中首次发现地质成因天然氢气。该发现发生于我国青藏高原,由科研人员主导完成,旨在探索零碳清洁能源新来源。因蛇绿岩具强还原性与构造活动性,研究认为其具备规模性氢气生成与封存潜力。此次发现为我国天然氢气勘查提供关键地质证据,填补了国内相关研究空白,有望推动青藏高原成为天然氢...
23:10
2025年1-12月,全球汽车销量达9647万台,其中新能源车销量2271万台,占比23.5%(纯电15.6%、插混7.9%),广义新能源车占比30%。中国新能源乘用车占全球份额68.4%,四季度升至71.9%;纯电动车全球份额64.3%。美国全年销量163万台,增速1%;欧洲销量383万台,同比增长32%。中国自主新能源车海外销量份额升至15.3%,较2...
23:10
2026年2月6日,微信Windows平台发布测试版4.1.8。该版本仅限白名单用户登录体验。更新内容包括:采用全新界面样式;新增‘正在浏览窗口’功能,支持在聊天窗口旁扩展区域打开公众号、笔记及链接等内容;侧边栏新增‘发现页’,整合朋友圈、视频号、搜一搜和小程序等入口。两项新功能均标注为内测体验性质,正式版中可能移除。此次更新旨在提升多任务处理效率与界面统...
22:39
2026年2月6日,鹿客科技(北京)股份有限公司正式向香港交易所提交上市申请。该公司注册地为北京,拟通过首次公开募股(IPO)募集资金用于智能安防产品研发及市场拓展。本次上市由中资券商中国银河国际担任独家保荐人。此举标志着鹿客科技加速推进国际化资本布局,强化在智能家居安全领域的竞争优势。
22:39
2026年2月6日,国家药监局批准辉瑞硫酸艾沙康唑胶囊(商品名:康新博,40mg)新增儿科适应证。该药适用于体重≥16千克、年龄6岁至18岁以下儿童,治疗侵袭性曲霉病和侵袭性毛霉病。此举填补了国内儿童侵袭性真菌感染靶向治疗的空白,为重症患儿提供新选择。审批基于临床研究数据,证实其在儿童群体中的安全性与有效性。
22:39
2026年2月6日至3月10日,国家数据局开展2025年度全国数据资源统计调查,标准时点为2025年12月31日。调查覆盖各省(区、市)数据管理部门及重点培育数据企业,要求应统尽统。新增国家重大科技基础设施、生成式人工智能、具身智能、卫星遥感、低空经济、生物医药、智能网联汽车、可信数据空间等八大重点领域。调查主体数量须达各省级管理部门最低要求。此次调查旨在...