声明:本文源自微信公众号量子位(ID:QbitAI),作者QbitAI,经微新创想授权转载发布。腾讯混元大模型再添新功能!发布仅两个月,混元大模型便迎来全新升级,不仅语言模型性能大幅提升,更悄然上线了AIGC领域最火爆的文生图功能。与Midjourney独立出图不同,混元文生图实现了与对话功能的完美融合,用户可边聊边画,体验与DALL·E3相似。已通过测试的用户可立即体验,排队用户也无需等待,我们已抢先实测了热门效果,现分享给大家。

混元文生图上手实测

根据腾讯官方介绍,混元大模型文生图的核心优势体现在三方面:真实感、中文理解力、风格多样性。接下来,我们将逐一验证其表现。

首先测试人像生成能力,复刻Midjourney爆火的“写实90年代北京情侣”效果。请生成一张摄影风格照片,场景设定为20世纪90年代北京,一位男性和一位女性面带微笑坐在屋顶,身着夹克和牛仔裤,周围环绕着建筑群。真实感表现令人满意,写实风格的人像生成精准,人物姿态自然,亚洲人脸特征与国外AI生成效果相比更加真实。小技巧提示:若想获得写实风格,建议使用“生成一张……”指令,而“画一张……”则可能生成插画风格。

写实人像表现优异,接下来测试风景生成能力。混元大模型不仅支持通用风景描述,还能指定真实景点,如“桂林山水”或“长城”。虽然AI生成图像与真实景观存在差异,但整体效果令人满意。更具挑战性的是场景组合,尝试生成“桂林山水中融入长城”的摄影风格图像,要求高度细节。混元大模型成功完成了这一离奇需求,甚至还原了水面波纹,证明其不仅重现训练数据,更具备独立理解概念的能力。

接下来挑战更复杂的概念,曾因不理解中文菜名闹出笑话的AI,经过半年发展已显著进步。“红烧狮子头”不再出现狮子,“夫妻肺片”也不会变成恐怖片,甚至看起来相当诱人。比菜名更具挑战的是古诗词,尝试生成“孤舟蓑笠翁,独钓寒江雪”的水墨画风格图像。整体效果不错,但存在小瑕疵:一张图中缺少“舟”,另一张舟上坐了两位“翁”,未能体现孤独意境。诗词这种凝练语言对AI仍有一定难度。

但别担心,混元助手同时具备聊天对话能力,支持多轮交互。借助强大的语言模型,我们找到了解决方案。通过使用“这些要求”、“上述要求”等指代词,实现两个功能的联动。再次生成图像时效果更稳定,并增加了雪花飘落细节。建议将此指令保存为快捷方式,从对话框右侧的魔法棒图标快速调用,只需修改描述内容即可。此外,支持一键分享至微信,4张图可同时分享让好友选择,无需反复截图。点击分享链接可放大查看图像,并开启新对话。

混元大模型在中文理解能力上表现突出,风格多样性同样令人印象深刻。作为腾讯出品,游戏插画风格自然不在话下,如赛博朋克风。初步效果不错,但仍有提升空间。结合语言模型明确风格特点,并手动添加细节,效果更佳。测试多种游戏画风,从3D到2D甚至像素风格,混元助手都能完美驾驭。同一主题和风格限定下,也能呈现不同画风,Furry爱好者可喜大普奔。

腾讯透露,内部多个场景已应用混元大模型文生图能力。虽然具体应用方式未知,但测试发现用《王者荣耀》作为风格限定词也能被理解。除了游戏场景,广告场景也能发挥真实感优势。腾讯的内容业务同样受益,玄幻小说插图效果出色。

这样的文生图效果背后究竟有何原理?业界已有不少开源文生图模型,腾讯是基于现有方案改进,还是完全自研?我们与混元大模型文生图技术负责人芦清林深入交流,了解技术细节。

模型全自研,用20亿+图文数据锤炼

芦清林表示,从算法、数据系统到工程平台,腾讯混元大模型文生图功能完全自研,确保生成自由度和数据安全,更符合用户需求。当前文生图模型普遍存在三个难点:语义理解差、构图不合理、画面细节无质感。

语义理解方面,模型难以理解中文,尤其是中英文混杂的描述。业界普遍采用CLIP算法,但存在两个问题:未建模中文语言,中文输入依赖翻译导致错误(如“红烧狮子头”生成狮子);图文对齐能力不足。构图方面,直接基于开源扩散模型可能生成“三只手”等异形。画面细节方面,开源模型因数据集分辨率和质量问题,生成图像清晰度不足。

为解决这些问题,腾讯混元团队采用三类模型组合“逐个击破”。语义理解上,自研跨模态预训练大模型,实现中英文、图像三者的跨模态对齐。生成构图上,采用扩散模型与Transformer混合架构,巧妙运用旋转位置编码技术,既掌握全局信息又理解局部细节。画面细节上,自研超分辨率模型并结合多种算法优化,提升图像质感。该架构不仅能生成1024×1024分辨率的图片,微调后还能支持图生图、文生视频。

数据是文生图质量的关键。OpenAI在DALL·E3论文中强调数据对指令跟随的重要性。腾讯同样重视数据,自研了三方面技术提升数据质量。

数据质量上,通过改善图-文数据集中的文本描述,提升图文相关性。数据效果上,对训练数据进行“金银铜”分层,20+亿青铜数据用于预训练,6亿+白银数据提升生成质量,1.12亿+黄金数据用于精调训练。数据效率上,建立数据飞轮自动化构建训练数据,加快模型迭代,解决数据长尾场景难题,如及时更新“玲娜贝儿”等新词。

工程平台是算法和数据的结合体。腾讯自研Angel机器学习平台,包括训练框架AngelPTM和推理框架AngelHCF。训练上,基于4D并行+ZeROCache机制实现千亿参数混元大模型的快速训练,AngelPTM速度比业界主流框架DeepSpeed-Chat快1倍。推理上,AngelHCF支持多种并行能力、服务部署管理、自研模型无损量化,速度提升1.3倍。Angel平台还升级了混元语言模型,代码能力显著提升。

混元大模型代码能力实测

首先测试代码生成能力,以帮老师写“随机点名程序”为例。混元大模型迅速生成带注释的完整代码:

“`python
import random
#假设班级里有50个学生,这里是他们的学号
student_ids = [‘001′,’002′,’003′,’004′,’005′,’006′,’007′,’008′,’009′,’010’,
‘011’,’012′,’013′,’014′,’015′,’016′,’017′,’018′,’019′,’020′,
‘021’,’022′,’023′,’024′,’025′,’026′,’027′,’028′,’029′,’030′,
‘031’,’032′,’033′,’034′,’035′,’036′,’037′,’038′,’039′,’040′,
‘041’,’042′,’043′,’044′,’045′,’046′,’047′,’048′,’049′,’050′]
#使用random.choice()函数从学生学号列表中随机选择一个学生
random_student_id = random.choice(student_ids)
#打印随机选中的学生学号
print(“随机抽取的学生学号是:”, random_student_id)
“`

代码运行流畅,每次都能抽取不同学生。更惊喜的是,混元大模型还能帮忙查代码bug,成为程序员省心利器。

现在,无论是文生图还是代码能力,都已在腾讯混元助手中开放体验。

最新快讯

2026年04月06日

23:59
微新创想:2026年4月,法拉利、兰博基尼、阿斯顿·马丁、保时捷等超豪华车企集体押注大排量发动机加电气化插电混动路线 这一战略选择并非技术妥协,而是为兼顾排放合规、性能极限与品牌情绪价值 SF90、Revuelto、DB12 Hybrid等车型均以V8/V12引擎为核心,叠加电机实现超千匹动力输出 宾利、劳斯莱斯亦放缓纯电节奏,强化插混布局 相较之下,莲花因...
22:54
微新创想:4月6日,美股开盘初期,加密货币相关概念股普遍上扬。市场情绪在早盘阶段明显回暖,多只与区块链和数字资产相关的股票表现强劲。Strategy、Circle及BMNR涨幅均超过4%,MARA上涨接近4%,Coinbase则录得超过3%的涨幅。这一波上涨主要集中在纳斯达克和纽约证券交易所上市的公司,涵盖加密基础设施、稳定币发行以及数字资产交易平台等多个核...
22:54
微新创想:4月6日,中电建肥城2×300兆瓦盐穴压缩空气储能电站2号机组发电机定子(重281吨)在山东肥城经济开发区精准吊装就位。该作业属于超危大工程,对精度要求达到毫米级。为确保吊装顺利进行,项目团队组建了专项攻坚组,经过多轮优化施工方案,并实施全程动态监测,最终实现一次成功吊装。此次关键节点的完成标志着项目核心设备安装全面启动,为后续转子穿装及整体工程建...
22:19
微新创想:4月6日,中科院物理所胡勇胜团队在《自然·能源》发表重要研究成果,首次在全球范围内在安时级钠离子电池中应用可聚合不燃电解质(PNE),成功实现热失控的彻底阻断。这项技术标志着钠离子电池在安全性方面迈出了关键一步。 该技术构建了‘热稳定性-界面稳定性-物理隔离’三位一体的智能防护体系,能够有效应对电池在极端条件下的安全隐患。当电池温度超过150°C时...
22:19
微新创想:2026年4月,中科院物理所与中科海钠胡勇胜团队成功研发出自保护可聚合不燃电解质(PNE)技术,实现了在全球范围内首次在3.5 Ah钢壳圆柱钠离子电芯中彻底阻断热失控现象。这项突破性成果标志着钠离子电池在安全性方面迈出了重要一步。 该电池在极端条件下表现出卓越的稳定性。在300℃高温测试以及针刺试验中,电池不仅没有冒烟,而且完全避免了起火和爆炸的风...
22:19
微新创想:4月5日陈光标发布视频称张雪迟迟未提车他特此将车辆变现的资金捐赠给嫣然医院并在视频中贴出汇款单据捐赠1000万用于嫣然医院建设 陈光标在视频中表示尊重张雪意愿也会一如既往地通过各种方式继续支持李亚鹏的慈善事业他提到自己投身公益事业完全是出于对社会和时代的感恩鼓励创新与进步促进友善和尊严 最后他还祝张雪生意兴隆视频发布后张雪在评论区回复标哥真男人为你...
22:19
微新创想:小米近日正式推出米家熨烫机2并开启众筹活动 产品定价为509元 米家熨烫机2搭载120g/min强劲干蒸汽输出 配合500kPa电磁泵压 蒸汽喷射距离可达150cm 能够深入衣物纤维快速抚平褶皱 干蒸汽熨烫后衣物水分增加2% 实现熨烫不湿衣的效果 产品采用双重加热系统 机身与熨斗双锅炉同步加热 将蒸汽处理至微米级级别 配合65秒快速预热 实现即熨即...
22:19
微新创想:REDMI产品经理胡馨心今天发布视频剧透称大家关心的新品很快就要来了而且明天就会有好消息预计会正式官宣结合此前消息这次新品的主角是REDMI K90至尊版将成为小米阵营首款配备主动散热的风冷手机 该机核心搭载联发科天玑9500采用台积电最新的第三代3nm工艺制程制造CPU架构包含1个主频高达4.21GHz的C1-Ultra超大核以及3个C1-Pre...
22:19
微新创想:苹果首款折叠屏手机iPhone Fold已由富士康启动试产 苹果首款折叠屏手机iPhone Fold近日在产业链消息中曝光,据可靠渠道确认,该机型已进入试产阶段,预计将在9月的秋季发布会上与iPhone 18 Pro系列一同亮相。随后于12月正式在全球范围内开售,标志着苹果正式进军折叠屏市场。 作为苹果在折叠屏领域的重要布局,iPhone Fold...
21:47
微新创想:2026年4月6日,美国加州红木城,甲骨文公司宣布任命希拉里·麦克斯恩为首席财务官。这一人事变动标志着公司高层领导团队的重要调整。 麦克斯恩此前担任公司执行副总裁兼财务主管,拥有丰富的财务与战略管理经验。她的职业背景使其在企业财务规划、资本运作及战略决策方面具备深厚的专业知识。 此次任命即日起生效,旨在进一步强化公司在云业务快速扩张阶段的财务治理能...
21:47
微新创想:4月6日,深江铁路珠江口隧道建设取得重大突破。该隧道位于广东珠江口海域,是连接深圳与江门的重要通道之一。由国产大直径盾构机“深江1号”承建,目前隧道掘进长度已超过4公里,最大埋深达到113米,刷新了全球海底高铁盾构隧道的深度纪录。 微新创想:珠江口隧道作为国家“八纵八横”沿海通道的关键组成部分,其建设对于完善区域交通网络、促进沿线经济发展具有重要意...
20:45
微新创想:截至4月6日19时49分,2026年清明档(4月4日至6日)全国总票房达3.01亿元。这一成绩展现了清明节期间电影市场的活跃度与观众的观影热情。 《超级马力欧银河大电影》凭借其强大的IP影响力和高质量的制作,以6283.87万元票房位居榜首。该片不仅吸引了大量家庭观众,也获得了年轻群体的广泛好评。 紧随其后的是《我,许可》和《挽救计划》。《我,许可...