DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质”

来源:中国科学报2025年06月27日 09:21作者:徐锐

据《自然》报道,谷歌DeepMind新开发的人工智能(AI)模型AlphaGenome可以帮助科学家解析基因组序列中的“暗物质”——非编码区,了解它们如何影响细胞内部运作并导致癌症等疾病的发生。目前,从事非商业工作的研究人员可以使用编程接口通过DeepMind的服务器访问该模型。这个AI模型在 6 月 25 日的预印本中进行了描述。

研究人员将大量基因组数据输入机器学习系统,训练它们预测非编码序列的作用。图片来源:JuSun/iStock via Getty

2001年,《自然》发表由美、英、日、德、法、中六国科学家共同完成的人类基因组序列草图。然而直到现在,约31亿个碱基对中的许多仍然是待解之谜。

在长长的人类基因组序列中,98%是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到头疼。

弄清楚DNA序列的作用很难,因为没有现成的答案,就像AlphaFold预测蛋白质3D结构一样。从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转录为RNA分子,到吸引影响基因表达发生地点、时间和程度的转录因子,单个DNA片段具有许多相互关联的作用。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,从而限制或简化转录机器的访问。

几十年来,科学家开发了数十种AI模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被剪切并拼接到不同蛋白质中的。而AlphaGenome正是一个“一体化”解释DNA序列的工具。

AlphaGenome可以处理多达100万个DNA碱基,这可能包括一个基因和无数个调节元件,并能针对多种生物特性进行数千次预测。而且,AlphaGenome在预测过程中对单个DNA碱基的变化十分敏感,这意味着科学家可以预测突变的影响。

DeepMind研究人员利用AlphaGenome分析了先前研究中发现的一种白血病患者的不同突变。该模型准确预测了非编码区突变间接激活了附近的一个基因,后者是这种癌症常见的驱动因素。

不过,研究人员表示,AlphaGenome仅基于人类和小鼠的基因组,以及其他相关实验数据进行训练,还没有测试它在其他生物中的有效性。此外,AlphaGenome预测的准确性还有提升的空间。例如,该模型难以识别位于10万多个碱基对以外的目标基因序列。

美国冷泉港实验室的计算生物学家Peter Koo说,AlphaGenome和类似的模型尚未捕捉到不断变化的细胞性质如何影响DNA序列的功能。因为这些模型只能在一个固定环境中进行预测,而细胞是动态的:蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。

【责任编辑:王弘晢】

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

守牢大国能源“饭碗” 铸强矿山革新“引擎”——武强院士解码新时代能源保障与转型之路
上海市监局回应韩束被曝添加禁用成分:进一步核实调查中
能源奋楫·强国鼎新——扬帆“十五五” 开局最“一线”
运满满到货加价2600 中途为何多了一手?

精彩图集

再访美军空袭后的拉瓜伊拉港
华盛顿举行反对联邦执法人员暴力执法抗议活动
首批下穿太湖超大直径盾构机下线
沪宁合高铁南京特大桥跨滁河斜拉桥顺利合龙
DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质”
分享到: