分析印度杂志
现在读
来自DeepMind的新人工智能模型可以更准确地预测基因表达
分析印度杂志

来自DeepMind的新人工智能模型可以更准确地预测基因表达

  • Enformer的基本理念是更好地理解非编码基因组中的变异,并预测任何变异对自然遗传和合成变异的基因表达的影响。
免费数据工程研讨会>>

来自谷歌的DeepMind和Alphabet的Calico的研究人员合作推出了一种神经网络架构——Enformer。这是一种基于转换器的模型,能够更准确地从DNA序列预测基因表达。简而言之,基因表达只不过是一个过程,在这个过程中,DNA指导蛋白质的合成,而蛋白质的合成是人体每一个生物过程的基础。这些发展勾勒出人工智能有能力为人类健康提供独特的好处,并加速科学进步。

此外,研究人员还公开了他们的模型,以进一步推进基因研究。我们可以找到模型在这里.DeepMind最近制作了源代码AlphaFold 2.0它有助于预测蛋白质的形状,公众也是如此。

Enformer是什么?

DNA包含的基因信息影响从眼睛颜色到疾病和疾病易感性的一切。大约有20000个的DNA片段在人体中;我们称它们为含有蛋白质氨基酸序列指令的基因。这些基因在细胞内执行各种生化功能。尽管如此,这些基因只占基因组的不到2%。基因组中剩余的碱基对被称为“非编码”,它们包括关于基因应该在人体何时何地产生或表达的不太为人所理解的指令。然而,它们占基因组30亿个“字母”的98%。

这背后的基本思想Enformer是更好地了解非编码基因组中的变异,并预测任何变异对自然遗传和合成变异的基因表达的影响。此外,以往关于基因表达的研究都将卷积神经网络作为基本构建模块;然而,它无法模拟远端增强子对基因表达的影响,这是准确性的瓶颈。因此,新开发的模型正在寻求救援。

为此,研究提出了一种基于自我注意的神经网络结构。“我们的框架机器学习问题在一个跨长DNA序列的多任务设置中预测数千个表观遗传和转录数据集。对大多数人类和小鼠基因组进行训练,并对保留的序列进行测试,我们观察到,与之前最先进的模型相比,预测和测量数据之间改善了相关性。.看图就明白了:

  1. Enformer被训练以128 bp分辨率从200 kb输入DNA序列预测人类和小鼠基因组轨迹。
  2. Enformer的表现优于Basenji2 -最先进的模型,并且
  3. 在所有四种检测类型中,Enformer的表现始终优于Basenji2。

图片致谢:DeepMind纸

这种新方法的主要目的是预测DNA字母的哪些变化,即通常所说的遗传变异,会影响基因的表达。Enformer在预测遗传变异对基因表达的影响方面优于早期的模型,无论是自然遗传变异还是改变关键调控序列的合成变异。这一特征有助于解释在全基因组关联研究中发现的越来越多的疾病相关变异。

另请参阅

追溯一下历史

1990年,一项国际科学研究项目——人类基因组计划(Human Genome project, HGP)诞生。的项目他的目标是完全绘制和理解人类所有的基因(基因组)。经过近13年,对人类基因组中30亿个DNA序列进行测序的任务于2003年4月完成。人类基因组计划已完成的序列覆盖了大约99%的人类基因组包含基因的区域,并已以99.99%的精度进行了排序。该计划多年来取得的成就如下所示。

图片致谢:国家人类基因组研究所

在人类基因组计划的启发下,科学技术部于2020年启动了一项雄心勃勃的基因图谱印度基因组项目(GIP)与包括印度科学院和印度理工学院在内的20所学院合作,为期三年。其目的是建立一个印度“参考基因组”的网格,以识别和理解疾病的类型和性质,并绘制印度的遗传多样性地图,这最终将有助于个性化医疗。


Enformer从DeepMind各种各样的国家和国际项目都在为了解基因组序列的复杂性而努力。最近的发展证实,在“基因组”绘制方面,人工智能可以发挥更大的作用。更多这样的倡议和研究在这个方向可以进一步帮助探索新的可能性。


加入我们的不和服务器。加入一个有吸引力的在线社区。加入这里


订阅我们的通讯

通过分享你的电子邮件获得最新的更新和相关的优惠。

188BET网页

滚动到顶部
Baidu