声明:本文源自微信公众号量子位(ID:QbitAI),作者QbitAI,经微新创想授权转载发布。腾讯混元大模型再添新功能!发布仅两个月,混元大模型便迎来全新升级,不仅语言模型性能大幅提升,更悄然上线了AIGC领域最火爆的文生图功能。与Midjourney独立出图不同,混元文生图实现了与对话功能的完美融合,用户可边聊边画,体验与DALL·E3相似。已通过测试的用户可立即体验,排队用户也无需等待,我们已抢先实测了热门效果,现分享给大家。

混元文生图上手实测

根据腾讯官方介绍,混元大模型文生图的核心优势体现在三方面:真实感、中文理解力、风格多样性。接下来,我们将逐一验证其表现。

首先测试人像生成能力,复刻Midjourney爆火的“写实90年代北京情侣”效果。请生成一张摄影风格照片,场景设定为20世纪90年代北京,一位男性和一位女性面带微笑坐在屋顶,身着夹克和牛仔裤,周围环绕着建筑群。真实感表现令人满意,写实风格的人像生成精准,人物姿态自然,亚洲人脸特征与国外AI生成效果相比更加真实。小技巧提示:若想获得写实风格,建议使用“生成一张……”指令,而“画一张……”则可能生成插画风格。

写实人像表现优异,接下来测试风景生成能力。混元大模型不仅支持通用风景描述,还能指定真实景点,如“桂林山水”或“长城”。虽然AI生成图像与真实景观存在差异,但整体效果令人满意。更具挑战性的是场景组合,尝试生成“桂林山水中融入长城”的摄影风格图像,要求高度细节。混元大模型成功完成了这一离奇需求,甚至还原了水面波纹,证明其不仅重现训练数据,更具备独立理解概念的能力。

接下来挑战更复杂的概念,曾因不理解中文菜名闹出笑话的AI,经过半年发展已显著进步。“红烧狮子头”不再出现狮子,“夫妻肺片”也不会变成恐怖片,甚至看起来相当诱人。比菜名更具挑战的是古诗词,尝试生成“孤舟蓑笠翁,独钓寒江雪”的水墨画风格图像。整体效果不错,但存在小瑕疵:一张图中缺少“舟”,另一张舟上坐了两位“翁”,未能体现孤独意境。诗词这种凝练语言对AI仍有一定难度。

但别担心,混元助手同时具备聊天对话能力,支持多轮交互。借助强大的语言模型,我们找到了解决方案。通过使用“这些要求”、“上述要求”等指代词,实现两个功能的联动。再次生成图像时效果更稳定,并增加了雪花飘落细节。建议将此指令保存为快捷方式,从对话框右侧的魔法棒图标快速调用,只需修改描述内容即可。此外,支持一键分享至微信,4张图可同时分享让好友选择,无需反复截图。点击分享链接可放大查看图像,并开启新对话。

混元大模型在中文理解能力上表现突出,风格多样性同样令人印象深刻。作为腾讯出品,游戏插画风格自然不在话下,如赛博朋克风。初步效果不错,但仍有提升空间。结合语言模型明确风格特点,并手动添加细节,效果更佳。测试多种游戏画风,从3D到2D甚至像素风格,混元助手都能完美驾驭。同一主题和风格限定下,也能呈现不同画风,Furry爱好者可喜大普奔。

腾讯透露,内部多个场景已应用混元大模型文生图能力。虽然具体应用方式未知,但测试发现用《王者荣耀》作为风格限定词也能被理解。除了游戏场景,广告场景也能发挥真实感优势。腾讯的内容业务同样受益,玄幻小说插图效果出色。

这样的文生图效果背后究竟有何原理?业界已有不少开源文生图模型,腾讯是基于现有方案改进,还是完全自研?我们与混元大模型文生图技术负责人芦清林深入交流,了解技术细节。

模型全自研,用20亿+图文数据锤炼

芦清林表示,从算法、数据系统到工程平台,腾讯混元大模型文生图功能完全自研,确保生成自由度和数据安全,更符合用户需求。当前文生图模型普遍存在三个难点:语义理解差、构图不合理、画面细节无质感。

语义理解方面,模型难以理解中文,尤其是中英文混杂的描述。业界普遍采用CLIP算法,但存在两个问题:未建模中文语言,中文输入依赖翻译导致错误(如“红烧狮子头”生成狮子);图文对齐能力不足。构图方面,直接基于开源扩散模型可能生成“三只手”等异形。画面细节方面,开源模型因数据集分辨率和质量问题,生成图像清晰度不足。

为解决这些问题,腾讯混元团队采用三类模型组合“逐个击破”。语义理解上,自研跨模态预训练大模型,实现中英文、图像三者的跨模态对齐。生成构图上,采用扩散模型与Transformer混合架构,巧妙运用旋转位置编码技术,既掌握全局信息又理解局部细节。画面细节上,自研超分辨率模型并结合多种算法优化,提升图像质感。该架构不仅能生成1024×1024分辨率的图片,微调后还能支持图生图、文生视频。

数据是文生图质量的关键。OpenAI在DALL·E3论文中强调数据对指令跟随的重要性。腾讯同样重视数据,自研了三方面技术提升数据质量。

数据质量上,通过改善图-文数据集中的文本描述,提升图文相关性。数据效果上,对训练数据进行“金银铜”分层,20+亿青铜数据用于预训练,6亿+白银数据提升生成质量,1.12亿+黄金数据用于精调训练。数据效率上,建立数据飞轮自动化构建训练数据,加快模型迭代,解决数据长尾场景难题,如及时更新“玲娜贝儿”等新词。

工程平台是算法和数据的结合体。腾讯自研Angel机器学习平台,包括训练框架AngelPTM和推理框架AngelHCF。训练上,基于4D并行+ZeROCache机制实现千亿参数混元大模型的快速训练,AngelPTM速度比业界主流框架DeepSpeed-Chat快1倍。推理上,AngelHCF支持多种并行能力、服务部署管理、自研模型无损量化,速度提升1.3倍。Angel平台还升级了混元语言模型,代码能力显著提升。

混元大模型代码能力实测

首先测试代码生成能力,以帮老师写“随机点名程序”为例。混元大模型迅速生成带注释的完整代码:

“`python
import random
#假设班级里有50个学生,这里是他们的学号
student_ids = [‘001′,’002′,’003′,’004′,’005′,’006′,’007′,’008′,’009′,’010’,
‘011’,’012′,’013′,’014′,’015′,’016′,’017′,’018′,’019′,’020′,
‘021’,’022′,’023′,’024′,’025′,’026′,’027′,’028′,’029′,’030′,
‘031’,’032′,’033′,’034′,’035′,’036′,’037′,’038′,’039′,’040′,
‘041’,’042′,’043′,’044′,’045′,’046′,’047′,’048′,’049′,’050′]
#使用random.choice()函数从学生学号列表中随机选择一个学生
random_student_id = random.choice(student_ids)
#打印随机选中的学生学号
print(“随机抽取的学生学号是:”, random_student_id)
“`

代码运行流畅,每次都能抽取不同学生。更惊喜的是,混元大模型还能帮忙查代码bug,成为程序员省心利器。

现在,无论是文生图还是代码能力,都已在腾讯混元助手中开放体验。

最新快讯

2026年04月02日

08:22
微新创想:2026年4月7日起,PlayStation Plus订阅用户可免费领取《堕落之主》(PS5)、《古墓丽影I-III重制版》(PS4/PS5)和《刀剑神域:碎梦边境》三款游戏。这些游戏将保留在用户的 PlayStation 游戏库中,直到订阅服务仍然有效。对于已经加入 PlayStation Plus 会员的玩家而言,这无疑是一次难得的游戏福利。 ...
08:22
微新创想:Epic游戏商城于2026年4月2日起推出一项限时赠品活动,向所有Epic账户用户赠送经典游戏《TOMAK : Save the Earth Regeneration》。这款游戏是2001年推出的《TOMAK : Save the Earth》在25周年之际的重制版本,延续了原作的核心玩法与主题。 玩家在游戏中需要在三年的游戏时间内,精心培育花盆中...
08:22
微新创想:4月1日,市场调查机构Omdia发布报告称全球媒体与娱乐行业正经历结构性变革。报告指出,预计在2025至2030年期间,全球传统电视与在线视频总收入将从7750亿美元增长至1.03万亿美元。这一增长趋势主要由在线视频广告收入的大幅上升所推动。 在线视频广告收入预计将达到5400亿美元,占整个行业总收入的超过半数。其中,Meta、TikTok、You...
08:22
微新创想:4月1日晚,SpaceX已向美国证券交易委员会秘密递交IPO注册草案,计划于2026年6月上市。该公司估值或超1.75万亿美元,融资规模预计达750亿美元,有望刷新全球IPO纪录。主承销商包括高盛、摩根大通等多家国际投行,散户配售比例最高达30%。IPO将采用双重股权结构以保障马斯克等管理层控制权。公司核心收入来自猎鹰9号发射服务与Starlink...
08:22
微新创想:2026年3月31日,英国伦敦大学学院研究人员在商用光纤上实现450太比特每秒(Tb/s)数据传输速率。这一突破性进展在英国伦敦完成,由该校科研团队主导,他们利用现有的商用单模光纤以及先进的波分复用与数字信号处理技术,成功实现了前所未有的高速数据传输。 此次实验所达到的传输速度较当前主流商用网络提速约10倍,意味着在相同时间内可以传输更多的数据。例...
07:51
微新创想:2026年4月2日,澳大利亚新南威尔士大学团队在《致癌作用》期刊发表了一项重要研究。该研究揭示了电子烟气溶胶对健康可能带来的严重风险。 研究结果显示,电子烟气溶胶能够导致DNA损伤、引发氧化应激并诱发炎症反应。这些生物机制可能在长期暴露下对身体造成不可逆的伤害。 在实验过程中,研究人员通过小鼠模型观察到肺部肿瘤的出现。这一发现进一步支持了电子烟对呼...
07:51
微新创想:3月31日,我国自主研制的超大直径盾构机“奋楫号”在江苏南通顺利下线,将用于盐宜高铁长江隧道工程。这台盾构机的下线标志着我国在水下隧道建设领域迈出了重要的一步。 盐宜高铁长江隧道全长8130米,其中需要独头掘进6710米。该隧道穿越高水压、软土及复杂地质带,最大埋深达到71米,最高水压为7.28bar。这些条件对施工技术提出了极高的要求,也对设备的...
07:51
微新创想:2026年4月1日,米其林在海外正式推出Primacy 5 Energy与Pilot Sport 5 Energy两款夏季纯电专用轮胎。这两款轮胎专为纯电动车设计,旨在满足其在续航、安全和耐用性方面的特殊需求。 Primacy 5 Energy主打能效表现,其滚动阻力达到了A级标准,能够有效提升纯电车型的续航里程。据官方数据显示,该轮胎可使纯电汽车...
07:51
微新创想:4月2日,中科院金属所刘洪阳团队在沈阳宣布,成功构建富缺陷石墨烯负载的Pd2双原子催化剂。这项突破性研究为乙烯工业带来了新的希望。 该催化剂在乙炔半加氢反应中表现出高活性与高选择性协同效应。这一特性使其能够更高效地将乙炔转化为乙烯,同时减少不必要的副反应。相比传统催化剂,其性能显著提升,为工业应用提供了更优解。 研究团队通过精确调控石墨烯的缺陷结构...
07:51
微新创想:2026年4月2日,京东集团宣布完成100亿元人民币优先无担保票据定价。此次发行包含两个不同期限的票据,其中75亿元为2031年到期、票面利率2.05%,25亿元为2036年到期、票面利率2.75%。该笔融资将有助于京东集团进一步强化其财务基础。 票据预计于4月10日或前后完成交割。京东集团表示,此次募集资金净额将用于一般公司用途,涵盖偿还部分现有...
07:51
微新创想:2026年4月,人工智能数据中心大规模建设推高电力需求,燃气轮机因安装快、调节灵活、部署适应性强,成为AIDC主电源优选。 随着人工智能技术的快速发展,数据中心的建设规模不断扩大。尤其是在2026年4月,这一趋势达到了一个新的高度,导致电力需求显著上升。在这样的背景下,燃气轮机因其独特的性能优势,逐渐成为人工智能数据中心(AIDC)的主要电源选择。...
07:51
微新创想:4月1日,现代汽车在纽约车展发布Boulder非承载式SUV概念车,宣告进军美国皮卡与硬派SUV市场。这款车型是现代汽车首次推出非承载式车身设计的车型,标志着品牌在越野与耐用性领域迈出重要一步。Boulder概念车采用梯形车架结构,搭配37英寸大尺寸轮胎,展现出强大的越野性能。其对开门设计不仅提升了视觉冲击力,也增强了实用性与便捷性。 微新创想:内...