近日,美国领先的生命科学公司Tahoe Bio(原Vevo Therapeutics)正式发布了其革命性的AI基础模型——Tahoe-x1(Tx1),这一专为解析基因、细胞与药物复杂关联而设计的30亿参数大模型,标志着人工智能在生命科学领域的应用实现了历史性跨越,从辅助工具跃升为强大的生命系统建模引擎,为癌症靶点发现和个性化治疗开辟了前所未有的创新路径。
架构革新:专为单细胞世界打造的30亿参数模型
Tahoe-x1基于先进的Transformer编码器架构,采用掩码语言建模(MLM)技术进行预训练,其训练数据规模令人瞩目,涵盖了高达2.66亿的单细胞转录组谱。其中,Tahoe Bio自主研发的Tahoe-100M扰动数据集尤为关键,该数据集详细记录了上千种分子对癌症细胞系的扰动响应,已被全球科研社区广泛下载近20万次,成为推动生命科学研究的重要资源。为平衡模型性能与实用性,Tahoe Bio推出了包括Tx1-70M在内的多尺寸版本,并通过FlashAttention v2等前沿优化技术,使计算效率比同类细胞模型提升3至30倍,即使在普通GPU上也能高效运行,显著降低了科研应用的门槛。
能力一:精准锁定癌症”命门”,超越现有模型
在基因必需性(Gene Essentiality)预测任务中,Tahoe-x1在权威DepMap数据集上表现卓越,全面超越了现有模型,能够精准识别不同癌症亚型中维持肿瘤生存的核心驱动基因。这一突破性能力将帮助研究人员快速锁定高价值靶点,大幅缩短从发现到验证的周期,尤其适用于异质性强的难治性癌症研究。
能力二:自动还原癌变通路,揭示分子协同网络

Tahoe-x1不仅能识别单个基因,更能捕捉癌变过程中协同激活的信号通路。在MSigDB数据库测试中,该模型对”癌变标志通路”(hallmark programs)的还原准确率位居首位,能够自动解析细胞周期失控、DNA修复缺陷等关键生物学程序,为多靶点联合疗法提供系统性洞见。
能力三:零样本预测药效,虚拟临床试验成为现实
Tahoe-x1最令人瞩目的特性是零样本泛化(zero-shot generalization)能力——即使面对从未见过的细胞类型或患者样本,模型也能基于已有知识进行类比推理,预测其对特定药物的反应。这意味着未来药物研发可以在计算机中模拟成千上万种治疗方案,筛选出最有潜力的组合,再进入实验室或临床阶段,显著降低试错成本与失败率。结合后训练框架,该模型还能适配多样化患者背景,加速个性化癌症疗法的落地。
AIbase观察:开源+数据驱动,生物AI生态加速成熟
Tahoe Bio已累计融资4200万美元,正致力于构建目标达10亿数据点的全球最大单细胞扰动图谱。此次Tahoe-x1不仅开源模型权重(Hugging Face)、代码(GitHub),还提供交互式演示,预印本已上线bioRxiv,全面拥抱科研社区协作。AIbase认为,Tahoe-x1的真正突破在于它让AI从”统计相关性”迈向”机制理解力”。当模型能像生物学家一样思考基因调控、药物干预和细胞响应机制时,药物研发范式将从”试错式”全面转向”预测式”。未来,随着数据规模持续扩展,Tahoe-x1或将成为精准医疗的基础设施——在虚拟世界中预演千万种治疗可能,只为在现实世界中,为患者赢得那一次最有效的治疗机会。
