近年来,人工智能在自然语言处理、计算机视觉、语音处理等领域取得了突破性进展,而将深度学习技术应用于物理、化学、生物、医学等传统科学领域,即AI for Science(科学智能),正逐渐成为新的交叉学科焦点,展现出巨大潜力并引发广泛关注。字节跳动研究院(ByteDance Research)也积极投身于AI for Science研究,聚焦机器学习与量子化学、大规模量子化学计算、AI制药等前沿领域,致力于推动该领域的持续发展。本文将简要介绍团队近两年在相关领域取得的研究成果,并期待与业界同仁展开更多交流合作。

在机器学习和量子化学方向,我们提出的LapNet算法在训练速度上比代表性模型FermiNet提升了10倍,同时能处理的化学体系规模和精度均达到当前领域最高水平。在大规模量子化学计算领域,我们开发的Periodic DMET算法采用经典与量子混合计算(实际为经典计算机模拟),仅用20个量子比特即可达到传统方法需近万个量子比特才能实现的精度。在AI制药领域,我们设计的LM-Design模型基于大量蛋白质序列数据及部分蛋白质结构与序列对应数据,实现了从蛋白质结构到序列转换的高精度模型,目前已成为蛋白质序列设计的顶尖方法。

量子化学物理学家狄拉克曾指出:”物理学和化学的基本定律已完全明了,但应用这些定律却异常困难,因为所得方程往往过于复杂难以求解。”量子化学正是基于量子力学原理研究化学现象的学科,其核心任务是通过计算方法求解分子或周期性体系(如固体)的电子薛定谔方程,从而推算出体系的基态能量、电极性等特性,即所谓的从头计算(ab initio)问题。传统方法如密度泛函理论(DFT)和耦合簇(CCSD)等,或因精度不足,或因规模受限,而近年来,机器学习方法为解决此类问题提供了新思路。

NN-VMC(Neural Network based Variational Monte Carlo)是其中一条重要路径。该方法利用神经网络近似薛定谔方程的波函数,通过随机采样获取体系中电子的空间分布,进而计算基于薛定谔方程的体系能量。通过最小化能量上界并迭代优化神经网络参数,最终得到近似最优的波函数和体系基态能量。图1展示了NN-VMC的基本原理。其关键在于神经网络设计和学习算法优化。DeepMind和ICL于2019年提出的FermiNet是NN-VMC领域的代表性方法,随后多家机构又提出了改进方案。自2021年起,我们与北京大学合作开展了一系列研究,提出了包括NN-VMC+ECP、NN-DMC、LapNet等新方法。

NN-VMC+ECP结合了NN-VMC和赝势ECP(Effective Core Potential)技术,通过定量表示原子内侧轨道电子的势能,大幅降低计算量,有效提升效率和体系规模。NN-DMC则将神经网络与扩散蒙特卡洛法(DMC)结合,通过虚时演化计算体系基态能量,相比FermiNet等现有方法能显著提高精度和规模。LapNet采用前向拉普拉斯算子优化神经网络学习过程,直接计算动能和哈密顿算子,省去黑塞矩阵计算环节,实现约10倍的加速效果。我们将ECP、DMC和前向拉普拉斯技术结合,进一步探索更大规模体系的计算可能性。此外,NN-VMC方法还成功应用于固体薛定谔方程求解、分子体系力场、电极化计算等问题,证明其广泛实用性。图2展示了当前NN-VMC方法的精度和规模对比,我们提出的LapNet在更高精度下实现了更大体系计算,最大体系包含116个电子。

由于直接求解薛定谔方程的计算规模限制,量子嵌入方法(Quantum Embedding Method)成为解决大规模量子化学计算的有效途径。密度矩阵嵌入理论(DMET)通过分而治之和多精度计算实现体系规模扩展。其基本思路是将体系划分为若干Fragment,对每个Fragment及其环境进行高精度计算,其他部分采用低精度计算,并根据需要并行处理,最终合并结果并迭代逼近原始体系。图3示意DMET方法流程:首先划分体系为Fragment组,对关注Fragment及其环境采用高精度方法(如CCSD)计算,其他部分用低精度方法(如Hartree–Fock)处理,并行计算所有Fragment,通过迭代优化使低精度解逐渐逼近高精度结果。

我们基于经典计算机和量子计算机两种范式实现了DMET及其变体SIE,推动大规模量子化学体系计算。其中,量子计算化学方法利用量子计算机实现DMET的高精度计算部分,经典计算机完成低精度计算部分。我们开发了DMET-ESVQE(分子体系)和Periodic DMET(周期性体系)方法,分别仅需16个和20个量子比特,即可达到传统方法需144个和近万个量子比特的计算精度。图4展示了混合计算机上实现的DMET Periodic方法过程:输入晶体,划分体系并行计算每个Fragment,关注Fragment及其环境在量子计算机上用U-CCSD求解,其他部分在经典计算机上用Hartree–Fock法处理,最终合并结果并迭代优化。

量子蒙特卡洛法(包括VMC、DMC)是量子化学的核心算法之一。我们创新性地将量子计算与量子蒙特卡洛法结合,充分发挥量子计算优势,部分解决符号问题。在AI制药领域,基于AI技术的药物设计已成为新范式。我们开发了多种小分子药物候选生成方法,包括MARS和DESERT。MARS从种子分子开始,通过马尔可夫链蒙特卡洛法(MCMC)和打分函数(评估亲和性、成药性、无毒性等)自动生成候选分子,利用图神经网络(MPNN)预测分子编辑操作,仅需打分函数和分子数据库即可生成全新候选分子。DESERT通过Sketching(基于靶点形状采样互补形状)和Generating(形状到分子式生成)两步生成候选分子,图5展示了其过程。图6示意Shape2Mol模型架构,编码器将3D分子形状编码为中间表示,解码器根据该表示生成分子式。DESERT在2022年小分子药物候选生成领域表现最佳。

近年来,我们聚焦大分子药物设计,特别是蛋白质设计。蛋白质设计包括抗体和多肽药物设计,其核心是从功能出发设计蛋白质结构,再确定对应序列。我们开发的LM-Design模型实现了从蛋白质结构到序列的高精度转换。该模型由结构编码器(已训练的图神经网络)和序列解码器组成,解码器基于预训练的蛋白质语言模型(Protein Language Model),并加入结构适配器进行序列改写。图7展示LM-Design模型架构。其学习过程类似BERT的掩码语言建模,通过多次还原被掩码序列中的氨基酸符号,充分利用蛋白质序列进化关系,大幅提升预测准确率。图8显示LM-Design是目前效果最佳的蛋白质序列生成模型。

致谢:感谢任维络、吕定顺、顾全全、吴凯、郑在翔、周奕、罗曼平、张震宇为本文撰写提供的宝贵建议和帮助。

最新快讯

2026年02月11日

06:50
微新创想:2026年2月11日,贝莱德中国、富达国际等多家外资机构表示在全球市场震荡加剧的背景下,未来3至5年将逐步降低对美元资产的集中配置,转向更加多元化的资产布局。这一趋势反映出国际投资者对于单一货币资产配置风险的担忧,以及对全球市场结构调整的适应。 微新创想:中国资产因其完整的产业链、强大的创新能力以及相对具吸引力的估值水平,正受到持续增持的青睐。外资...
05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...