谷歌研究团队携手加州大学圣克鲁兹分校的顶尖学者,共同研发出突破性的人工智能模型——DeepSomatic,该模型专注于精准识别癌细胞中的基因变异。在与中国儿童医疗中心展开的深度合作中,DeepSomatic 创纪录地发现了传统工具难以捕捉的10种小儿白血病细胞变异,展现了其在癌症基因组学领域的革命性潜力。
DeepSomatic 采用专为癌症基因组设计的小型变异调用器,完美兼容三大主流测序技术:Illumina短读段、PacBio HiFi长读段以及Oxford Nanopore长读段。这一创新方法在DeepVariant技术框架上实现了重大突破,不仅能高效检测单核苷酸变异(SNV)和小插入缺失(indels),还支持肿瘤-正常双序列和肿瘤单序列分析工作流程,尤其擅长处理福尔马林固定石蜡包埋(FFPE)样本。其核心工作原理是将对齐后的测序读段转化为具有图像特征的张量,这些张量通过编码堆叠状态、碱基质量值和比对上下文信息,为后续分析提供丰富数据维度。基于卷积神经网络的高效分类机制,模型能够精准判定候选位点是否为体细胞变异,最终输出标准化的VCF或gVCF文件。这种创新设计赋予DeepSomatic跨平台适应性,其张量编码机制能有效总结不同测序技术的局部单倍型特征和错误模式分布。
在数据集与基准测试方面,研究团队采用权威的CASTLE(癌症标准长读段评估)数据集进行模型训练与验证。该数据集包含6对肿瘤与正常细胞系的匹配样本,全部采用Illumina、PacBio HiFi和Oxford Nanopore技术完成全基因组测序。特别值得一提的是,研究团队已公开发布基准数据集及访问权限,为学术界填补了多技术平台体细胞变异训练与测试资源的重要空白。测试结果显示,DeepSomatic在SNV和indels检测方面全面超越现有主流方法。以Illumina测序的插入缺失检测为例,DeepSomatic的F1分数高达90%,较传统方法提升15个百分点;在PacBio测序数据中,其F1分数同样超过80%。研究团队更报告发现了329,011个体细胞变异,这一惊人数据进一步印证了DeepSomatic在插入缺失检测领域的卓越性能。
DeepSomatic的突破性意义主要体现在以下三个核心优势:首先,该模型能够精准识别多种癌细胞基因变异,全面覆盖主流测序平台;其次,通过卷积神经网络将读取信息转化为图像张量,确保了检测结果的准确性与高度一致性;最后,在权威基准测试中,其检测精度显著优于现有主流方法,特别是在插入缺失检测方面展现出压倒性优势。这些创新成果为癌症精准医疗提供了强大技术支撑,有望彻底改变肿瘤基因组分析的范式。研究详情请参阅:https://research.google/blog/using-ai-to-identify-genetic-variants-in-tumors-with-deepsomatic/