声明:本文源自微信公众号量子位(ID:QbitAI),作者QbitAI,经微新创想授权转载发布。腾讯混元大模型再添新功能!发布仅两个月,混元大模型便迎来全新升级,不仅语言模型性能大幅提升,更悄然上线了AIGC领域最火爆的文生图功能。与Midjourney独立出图不同,混元文生图实现了与对话功能的完美融合,用户可边聊边画,体验与DALL·E3相似。已通过测试的用户可立即体验,排队用户也无需等待,我们已抢先实测了热门效果,现分享给大家。

混元文生图上手实测

根据腾讯官方介绍,混元大模型文生图的核心优势体现在三方面:真实感、中文理解力、风格多样性。接下来,我们将逐一验证其表现。

首先测试人像生成能力,复刻Midjourney爆火的“写实90年代北京情侣”效果。请生成一张摄影风格照片,场景设定为20世纪90年代北京,一位男性和一位女性面带微笑坐在屋顶,身着夹克和牛仔裤,周围环绕着建筑群。真实感表现令人满意,写实风格的人像生成精准,人物姿态自然,亚洲人脸特征与国外AI生成效果相比更加真实。小技巧提示:若想获得写实风格,建议使用“生成一张……”指令,而“画一张……”则可能生成插画风格。

写实人像表现优异,接下来测试风景生成能力。混元大模型不仅支持通用风景描述,还能指定真实景点,如“桂林山水”或“长城”。虽然AI生成图像与真实景观存在差异,但整体效果令人满意。更具挑战性的是场景组合,尝试生成“桂林山水中融入长城”的摄影风格图像,要求高度细节。混元大模型成功完成了这一离奇需求,甚至还原了水面波纹,证明其不仅重现训练数据,更具备独立理解概念的能力。

接下来挑战更复杂的概念,曾因不理解中文菜名闹出笑话的AI,经过半年发展已显著进步。“红烧狮子头”不再出现狮子,“夫妻肺片”也不会变成恐怖片,甚至看起来相当诱人。比菜名更具挑战的是古诗词,尝试生成“孤舟蓑笠翁,独钓寒江雪”的水墨画风格图像。整体效果不错,但存在小瑕疵:一张图中缺少“舟”,另一张舟上坐了两位“翁”,未能体现孤独意境。诗词这种凝练语言对AI仍有一定难度。

但别担心,混元助手同时具备聊天对话能力,支持多轮交互。借助强大的语言模型,我们找到了解决方案。通过使用“这些要求”、“上述要求”等指代词,实现两个功能的联动。再次生成图像时效果更稳定,并增加了雪花飘落细节。建议将此指令保存为快捷方式,从对话框右侧的魔法棒图标快速调用,只需修改描述内容即可。此外,支持一键分享至微信,4张图可同时分享让好友选择,无需反复截图。点击分享链接可放大查看图像,并开启新对话。

混元大模型在中文理解能力上表现突出,风格多样性同样令人印象深刻。作为腾讯出品,游戏插画风格自然不在话下,如赛博朋克风。初步效果不错,但仍有提升空间。结合语言模型明确风格特点,并手动添加细节,效果更佳。测试多种游戏画风,从3D到2D甚至像素风格,混元助手都能完美驾驭。同一主题和风格限定下,也能呈现不同画风,Furry爱好者可喜大普奔。

腾讯透露,内部多个场景已应用混元大模型文生图能力。虽然具体应用方式未知,但测试发现用《王者荣耀》作为风格限定词也能被理解。除了游戏场景,广告场景也能发挥真实感优势。腾讯的内容业务同样受益,玄幻小说插图效果出色。

这样的文生图效果背后究竟有何原理?业界已有不少开源文生图模型,腾讯是基于现有方案改进,还是完全自研?我们与混元大模型文生图技术负责人芦清林深入交流,了解技术细节。

模型全自研,用20亿+图文数据锤炼

芦清林表示,从算法、数据系统到工程平台,腾讯混元大模型文生图功能完全自研,确保生成自由度和数据安全,更符合用户需求。当前文生图模型普遍存在三个难点:语义理解差、构图不合理、画面细节无质感。

语义理解方面,模型难以理解中文,尤其是中英文混杂的描述。业界普遍采用CLIP算法,但存在两个问题:未建模中文语言,中文输入依赖翻译导致错误(如“红烧狮子头”生成狮子);图文对齐能力不足。构图方面,直接基于开源扩散模型可能生成“三只手”等异形。画面细节方面,开源模型因数据集分辨率和质量问题,生成图像清晰度不足。

为解决这些问题,腾讯混元团队采用三类模型组合“逐个击破”。语义理解上,自研跨模态预训练大模型,实现中英文、图像三者的跨模态对齐。生成构图上,采用扩散模型与Transformer混合架构,巧妙运用旋转位置编码技术,既掌握全局信息又理解局部细节。画面细节上,自研超分辨率模型并结合多种算法优化,提升图像质感。该架构不仅能生成1024×1024分辨率的图片,微调后还能支持图生图、文生视频。

数据是文生图质量的关键。OpenAI在DALL·E3论文中强调数据对指令跟随的重要性。腾讯同样重视数据,自研了三方面技术提升数据质量。

数据质量上,通过改善图-文数据集中的文本描述,提升图文相关性。数据效果上,对训练数据进行“金银铜”分层,20+亿青铜数据用于预训练,6亿+白银数据提升生成质量,1.12亿+黄金数据用于精调训练。数据效率上,建立数据飞轮自动化构建训练数据,加快模型迭代,解决数据长尾场景难题,如及时更新“玲娜贝儿”等新词。

工程平台是算法和数据的结合体。腾讯自研Angel机器学习平台,包括训练框架AngelPTM和推理框架AngelHCF。训练上,基于4D并行+ZeROCache机制实现千亿参数混元大模型的快速训练,AngelPTM速度比业界主流框架DeepSpeed-Chat快1倍。推理上,AngelHCF支持多种并行能力、服务部署管理、自研模型无损量化,速度提升1.3倍。Angel平台还升级了混元语言模型,代码能力显著提升。

混元大模型代码能力实测

首先测试代码生成能力,以帮老师写“随机点名程序”为例。混元大模型迅速生成带注释的完整代码:

“`python
import random
#假设班级里有50个学生,这里是他们的学号
student_ids = [‘001′,’002′,’003′,’004′,’005′,’006′,’007′,’008′,’009′,’010’,
‘011’,’012′,’013′,’014′,’015′,’016′,’017′,’018′,’019′,’020′,
‘021’,’022′,’023′,’024′,’025′,’026′,’027′,’028′,’029′,’030′,
‘031’,’032′,’033′,’034′,’035′,’036′,’037′,’038′,’039′,’040′,
‘041’,’042′,’043′,’044′,’045′,’046′,’047′,’048′,’049′,’050′]
#使用random.choice()函数从学生学号列表中随机选择一个学生
random_student_id = random.choice(student_ids)
#打印随机选中的学生学号
print(“随机抽取的学生学号是:”, random_student_id)
“`

代码运行流畅,每次都能抽取不同学生。更惊喜的是,混元大模型还能帮忙查代码bug,成为程序员省心利器。

现在,无论是文生图还是代码能力,都已在腾讯混元助手中开放体验。

最新快讯

2026年02月24日

16:54
微新创想:2026年2月,西门子医疗与美国梅奥诊所宣布深化战略合作。双方将聚焦神经退行性疾病、前列腺癌及转移性肝肿瘤三大领域,通过联合开发和推广新型影像学与介入技术,提升诊疗质量与技术可及性。 合作旨在优化临床路径、加速创新技术落地,并惠及全球患者。这一战略伙伴关系不仅将推动医学影像与介入治疗领域的技术进步,还将为医生和患者带来更精准、高效的诊断与治疗方案。...
16:54
微新创想:2026年2月24日,万代南梦宫正式上架任天堂正版授权的《星之卡比》主题AirPods Pro 3硅胶保护套,由Gourmandise商店发售。这款保护套以经典IP《星之卡比》为灵感,融合了角色标志性的粉萌形象与独特的吸入能力设计,深受粉丝喜爱。 该产品提供两款粉色设计,售价为3168日元,约合141.7元人民币。消费者可以期待在4月下旬收到这款限...
16:54
微新创想:2026年2月24日,杭州宇树科技正式发布新型四足机器人Unitree As2。这款机器人在性能上实现了多项突破,其峰值扭矩达到90N·m,具备强大的动力输出能力。同时,Unitree As2的空载续航时间超过4小时,能够满足长时间作业的需求。 该机器人还支持IP54级防雨水功能,有效提升了在户外环境中的适应性和耐用性。最大负载能力为15kg,使其...
16:54
微新创想:2026年2月,停车服务平台通通停车宣布完成A+轮融资,由红马投资集团独家投资。此次融资的完成,不仅为通通停车注入了新的发展动力,也标志着其在智慧停车领域迈出了坚实的一步。 本轮融资将主要用于加速全国重点城市的车位资源接入,进一步提升平台的覆盖范围与服务能力。同时,资金还将用于智能导航系统的升级,以提高用户在寻找停车位时的效率与体验。此外,访客登记...
16:54
微新创想:2026年2月,西安聚能超导磁体科技股份有限公司正式启动IPO辅导工作,由中信建投证券担任辅导机构。公司自2011年6月成立以来,一直隶属于西北有色金属研究院,专注于超导磁体设备的研发与生产。凭借在超导技术领域的深厚积累,西安聚能超导磁体科技逐渐成长为行业内的领先企业。 微新创想:在2023年至2024年间,公司实现了持续的业绩增长。2023年营业...
16:54
微新创想:2026年2月24日,中邮保险资产管理有限公司发布公告,董事长韩广岳因年满60周岁,正式辞去董事长、董事及董事会投资决策委员会主任委员职务。公司董事会第九次(临时)会议决定,选举李学军担任新任董事长,待银保监会核准后正式履职。在董事长职务交接的过渡期内,韩广岳将继续代行董事长职责。 韩广岳出生于1966年4月,拥有丰富的金融与保险行业经验。他长期在...
16:54
微新创想:2026年2月,上海朋熙半导体股份有限公司正式启动首次公开募股(IPO)计划。此次上市标志着公司在半导体行业迈出了重要的一步,也体现了其在技术创新与市场拓展方面的强劲实力。 公司由彭海荣控股,持股比例达到46.44%。彭泽慧担任董事长,负责整体战略方向。此次IPO的辅导机构为国泰海通证券,律师事务所为国浩律师(上海)事务所,会计师事务所为大信会计师...
16:54
微新创想:2026年2月,北京神州普惠科技股份有限公司获得北京市先进制造和智能装备产业投资基金的战略投资。该公司成立于2003年,是工信部认定的专精特新“小巨人”企业,总部位于北京。此次融资将重点用于海洋高端仪器装备的智能化升级以及跨行业光纤传感解决方案的拓展。 神州普惠专注于光纤传感与水声感知技术领域,拥有从研发到应用的全链条能力。其产品包括光纤水听器阵列...
16:54
微新创想:《英雄联盟》官方宣布自2026年8月13日起正式终止对Windows 7操作系统的支持届时游戏将无法在该系统上运行 此举旨在提升游戏稳定性与性能集中资源优化主流平台体验 官方同步提供微软Windows 10官方升级指引涵盖硬件检查数据备份工具下载及驱动更新等步骤建议用户提前完成系统迁移 升级可保留个人文件与设置但需确保设备满足Win10最低配置要求...
16:54
微新创想:2026年2月23日,B站UP主@是只耶吧发布了一段引起广泛关注的视频,全网首发《迷你世界》与《我的世界》跨平台联机技术。该UP主是一名14岁的初中生,凭借自己的技术能力,仅用六天时间便完成了对《迷你世界》协议的逆向分析,并利用gophertunnel实现了基岩版协议的翻译与转发。 微新创想:这项技术突破使得两款游戏的基本功能得以互通,包括方块显示...
16:54
微新创想:2026年2月24日,日本厂商SANWA发布了一款全新的拇指轨迹球鼠标——400-MAWBTB230。这款鼠标在设计上充分考虑了人体工学因素,采用了54°高倾角结构,使得用户在长时间使用过程中能够获得更舒适的握持体验。其独特的轨迹球设计不仅提升了操作的精准度,还为用户提供了更加直观的控制方式。 该产品集成了高速滚轮,支持上下滚动以及左右倾斜输入,让...
16:54
微新创想:2026年2月24日,美国国家公路交通安全管理局(NHTSA)披露,福特汽车公司将在美国召回412774辆汽车。此次召回涉及2021至2025款的F-150、Mustang Mach-E等车型。 涉事车辆的问题在于后束连杆存在制造缺陷。这种缺陷可能导致后束连杆断裂,进而影响后轮定位,造成转向失控。这种情况会显著增加车辆在行驶过程中发生碰撞的风险。 ...