声明:本文源自微信公众号量子位(ID:QbitAI),作者QbitAI,经微新创想授权转载发布。腾讯混元大模型再添新功能!发布仅两个月,混元大模型便迎来全新升级,不仅语言模型性能大幅提升,更悄然上线了AIGC领域最火爆的文生图功能。与Midjourney独立出图不同,混元文生图实现了与对话功能的完美融合,用户可边聊边画,体验与DALL·E3相似。已通过测试的用户可立即体验,排队用户也无需等待,我们已抢先实测了热门效果,现分享给大家。

混元文生图上手实测

根据腾讯官方介绍,混元大模型文生图的核心优势体现在三方面:真实感、中文理解力、风格多样性。接下来,我们将逐一验证其表现。

首先测试人像生成能力,复刻Midjourney爆火的“写实90年代北京情侣”效果。请生成一张摄影风格照片,场景设定为20世纪90年代北京,一位男性和一位女性面带微笑坐在屋顶,身着夹克和牛仔裤,周围环绕着建筑群。真实感表现令人满意,写实风格的人像生成精准,人物姿态自然,亚洲人脸特征与国外AI生成效果相比更加真实。小技巧提示:若想获得写实风格,建议使用“生成一张……”指令,而“画一张……”则可能生成插画风格。

写实人像表现优异,接下来测试风景生成能力。混元大模型不仅支持通用风景描述,还能指定真实景点,如“桂林山水”或“长城”。虽然AI生成图像与真实景观存在差异,但整体效果令人满意。更具挑战性的是场景组合,尝试生成“桂林山水中融入长城”的摄影风格图像,要求高度细节。混元大模型成功完成了这一离奇需求,甚至还原了水面波纹,证明其不仅重现训练数据,更具备独立理解概念的能力。

接下来挑战更复杂的概念,曾因不理解中文菜名闹出笑话的AI,经过半年发展已显著进步。“红烧狮子头”不再出现狮子,“夫妻肺片”也不会变成恐怖片,甚至看起来相当诱人。比菜名更具挑战的是古诗词,尝试生成“孤舟蓑笠翁,独钓寒江雪”的水墨画风格图像。整体效果不错,但存在小瑕疵:一张图中缺少“舟”,另一张舟上坐了两位“翁”,未能体现孤独意境。诗词这种凝练语言对AI仍有一定难度。

但别担心,混元助手同时具备聊天对话能力,支持多轮交互。借助强大的语言模型,我们找到了解决方案。通过使用“这些要求”、“上述要求”等指代词,实现两个功能的联动。再次生成图像时效果更稳定,并增加了雪花飘落细节。建议将此指令保存为快捷方式,从对话框右侧的魔法棒图标快速调用,只需修改描述内容即可。此外,支持一键分享至微信,4张图可同时分享让好友选择,无需反复截图。点击分享链接可放大查看图像,并开启新对话。

混元大模型在中文理解能力上表现突出,风格多样性同样令人印象深刻。作为腾讯出品,游戏插画风格自然不在话下,如赛博朋克风。初步效果不错,但仍有提升空间。结合语言模型明确风格特点,并手动添加细节,效果更佳。测试多种游戏画风,从3D到2D甚至像素风格,混元助手都能完美驾驭。同一主题和风格限定下,也能呈现不同画风,Furry爱好者可喜大普奔。

腾讯透露,内部多个场景已应用混元大模型文生图能力。虽然具体应用方式未知,但测试发现用《王者荣耀》作为风格限定词也能被理解。除了游戏场景,广告场景也能发挥真实感优势。腾讯的内容业务同样受益,玄幻小说插图效果出色。

这样的文生图效果背后究竟有何原理?业界已有不少开源文生图模型,腾讯是基于现有方案改进,还是完全自研?我们与混元大模型文生图技术负责人芦清林深入交流,了解技术细节。

模型全自研,用20亿+图文数据锤炼

芦清林表示,从算法、数据系统到工程平台,腾讯混元大模型文生图功能完全自研,确保生成自由度和数据安全,更符合用户需求。当前文生图模型普遍存在三个难点:语义理解差、构图不合理、画面细节无质感。

语义理解方面,模型难以理解中文,尤其是中英文混杂的描述。业界普遍采用CLIP算法,但存在两个问题:未建模中文语言,中文输入依赖翻译导致错误(如“红烧狮子头”生成狮子);图文对齐能力不足。构图方面,直接基于开源扩散模型可能生成“三只手”等异形。画面细节方面,开源模型因数据集分辨率和质量问题,生成图像清晰度不足。

为解决这些问题,腾讯混元团队采用三类模型组合“逐个击破”。语义理解上,自研跨模态预训练大模型,实现中英文、图像三者的跨模态对齐。生成构图上,采用扩散模型与Transformer混合架构,巧妙运用旋转位置编码技术,既掌握全局信息又理解局部细节。画面细节上,自研超分辨率模型并结合多种算法优化,提升图像质感。该架构不仅能生成1024×1024分辨率的图片,微调后还能支持图生图、文生视频。

数据是文生图质量的关键。OpenAI在DALL·E3论文中强调数据对指令跟随的重要性。腾讯同样重视数据,自研了三方面技术提升数据质量。

数据质量上,通过改善图-文数据集中的文本描述,提升图文相关性。数据效果上,对训练数据进行“金银铜”分层,20+亿青铜数据用于预训练,6亿+白银数据提升生成质量,1.12亿+黄金数据用于精调训练。数据效率上,建立数据飞轮自动化构建训练数据,加快模型迭代,解决数据长尾场景难题,如及时更新“玲娜贝儿”等新词。

工程平台是算法和数据的结合体。腾讯自研Angel机器学习平台,包括训练框架AngelPTM和推理框架AngelHCF。训练上,基于4D并行+ZeROCache机制实现千亿参数混元大模型的快速训练,AngelPTM速度比业界主流框架DeepSpeed-Chat快1倍。推理上,AngelHCF支持多种并行能力、服务部署管理、自研模型无损量化,速度提升1.3倍。Angel平台还升级了混元语言模型,代码能力显著提升。

混元大模型代码能力实测

首先测试代码生成能力,以帮老师写“随机点名程序”为例。混元大模型迅速生成带注释的完整代码:

“`python
import random
#假设班级里有50个学生,这里是他们的学号
student_ids = [‘001′,’002′,’003′,’004′,’005′,’006′,’007′,’008′,’009′,’010’,
‘011’,’012′,’013′,’014′,’015′,’016′,’017′,’018′,’019′,’020′,
‘021’,’022′,’023′,’024′,’025′,’026′,’027′,’028′,’029′,’030′,
‘031’,’032′,’033′,’034′,’035′,’036′,’037′,’038′,’039′,’040′,
‘041’,’042′,’043′,’044′,’045′,’046′,’047′,’048′,’049′,’050′]
#使用random.choice()函数从学生学号列表中随机选择一个学生
random_student_id = random.choice(student_ids)
#打印随机选中的学生学号
print(“随机抽取的学生学号是:”, random_student_id)
“`

代码运行流畅,每次都能抽取不同学生。更惊喜的是,混元大模型还能帮忙查代码bug,成为程序员省心利器。

现在,无论是文生图还是代码能力,都已在腾讯混元助手中开放体验。

最新快讯

2026年03月12日

19:13
微新创想:2026年3月12日,迅雷发布了截至2025年12月31日的全年及第四季度未经审计财务报告。数据显示,公司全年总营收达到4.624亿美元,同比增长了42.5%。在净利润方面,公司实现GAAP净利润10.476亿美元,显示出强劲的盈利能力。 第四季度的营收为1.433亿美元,同比增长70%。这一季度的表现尤为亮眼,不仅整体营收增长显著,海外业务营收占...
19:13
微新创想:2026年3月12日,奥迪中国正式公布全新A6L预售价格,区间为32.3万—43.6万元。相较前代C8车型,入门版降价10.49万元,3.0T顶配版降幅达12.29万元。这一价格调整显示出奥迪在市场中的积极应对姿态。 新车基于升级平台打造,搭载第五代EA888发动机与P3电机混动系统,提升动力响应及燃油经济性。在动力性能方面,全新A6L不仅保持了奥...
19:13
微新创想:2025年,保时捷全球营收达到363亿欧元,但同比出现了9.5%的下滑。净利润更是大幅下降至仅0.4亿欧元,同比骤降93%。经营利润率从14.1%骤降至1.1%,反映出公司在这一年面临的严峻挑战。 中国市场表现尤为突出,营收下滑40%,成为全球跌幅最大的单一市场。销量仅为4.2万辆,相比2021年的峰值减少了近一半。这一下滑不仅影响了保时捷的整体业...
19:13
微新创想:2026年2月中国汽车动力电池产业创新联盟发布了最新数据,显示当月我国动力和储能电池总销量达到113.2GWh。这一数据相比上个月出现了23.9%的环比下降,但同比增长了25.7%。数据显示,动力电池销量为74.5GWh,储能电池销量为38.6GWh。值得注意的是,当月电池出口量为23.9GWh,占总销量的20.6%,显示出我国动力电池在国际市场上...
19:13
微新创想:2026年3月12日,证监会正式同意天海汽车电子集团股份有限公司首次公开发行股票注册申请。公司拟发行不低于49,555,556股,将在深圳证券交易所主板上市。这一消息标志着天海电子正式迈入资本市场,开启新的发展阶段。 天海电子主营汽车线束、连接器及电子控制系统等零部件,产品广泛应用于各类整车制造领域。公司已与奇瑞、上汽、吉利、理想、蔚来等知名整车厂...
18:36
微新创想:2026年3月12日,摩托罗拉在巴西正式发售Edge 70 Fusion+新机。这款手机在配置和性能上都有显著提升,满足了用户对高端体验的追求。 该机搭载骁龙7s Gen 4处理器,带来更流畅的使用体验和更强的多任务处理能力。屏幕方面,配备了一块6.8英寸的四曲面AMOLED显示屏,支持144Hz高刷新率,无论是日常使用还是游戏娱乐,都能呈现出细腻...
18:36
微新创想:3月12日,申通快递在成立33周年暨企业社会责任日宣布启动AI“萤火虫”保护监测计划。这一计划标志着申通在公益领域迈出重要一步,不仅关注物流服务的提升,更将目光投向生态环境的保护。 该计划联合中华环境保护基金会、守望萤火虫研究中心,共同在上海青浦建设萤火虫栖息地。通过科学规划与生态修复,为萤火虫提供更加适宜的生存环境,助力生物多样性的恢复与保护。 ...
18:36
微新创想:2026年3月12日,医疗财务AI平台Translucent宣布完成2700万美元A轮融资 本轮融资由Google Ventures(GV)领投,Virtue、FPV Ventures及NEA恩颐投资跟投 公司总部位于美国,致力于通过代理型AI平台帮助医院和诊所同步优化财务健康与患者护理质量 其技术提供实时财务可视化及全天候大规模根本原因分析,赋能...
18:36
微新创想:3月12日,360集团创始人周鸿祎在龙虾安全媒体交流会上作出预测。他表示,Anthropic公司(即Claude所属企业)的市值和收入“很快”将超过OpenAI。该言论发生于北京举行的行业交流活动,未披露具体时间点或数据依据。 周鸿祎强调,Anthropic在模型安全性、可控性及商业化落地方面进展显著,或成其增长关键。他指出,Anthropic的技...
18:36
微新创想:2026年3月12日 国家工业信息安全发展研究中心发布《关于工业领域OpenClaw应用的风险预警通报》 该通报明确指出开源AI智能体OpenClaw 由于具备高权限操控和双模记忆等特性 在工业设计 制造 运维等多个环节中迅速推广应用 然而其在实际应用过程中暴露出越权控制 敏感信息泄露以及攻击面扩大的三大主要风险问题 首先OpenClaw的权限管控...
18:36
微新创想:在3月12日上海举行的2026中国家电及消费电子博览会上 追觅正式发布了其全系手机产品 这一举动标志着该品牌正式进军智能手机市场 并展现出强大的产品布局能力 首款旗舰机型NX741J搭载了第五代骁龙8至尊版平台 运行基于Android 16的星云AIOS系统 该系统以智能化和高效性为核心 为用户带来更流畅的使用体验 同时NX741J配备无挖孔全面屏...