创新与应用案例

深度学习框架预测非编码区基因突变

日期:2022-04-29

|  来源:【字号:

202239日,来自麻省理工学院和哈佛大学博德研究所等机构的一项研究登上《自然》杂志封面。研究者创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药,寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

人类细胞99%由不携带构建蛋白质的指令的非编码DNA组成,这些非编码区域经常会出现突变,有时会调整它们的功能并改变它们控制基因表达的方式。为了更好地了解此类突变的影响,研究人员一直在努力研究被称之为“适应度地形”(fitness landscape)的数学图谱。通过这些图谱能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。

团队建立了自己的无偏模型,能够基于任何可能的DNA序列,预测生物体的适应度和基因表达。研究人员在一个通过将数百万个完全随机的非编码DNA序列插入酵母菌中生成的数据集上训练模型,并观察每个随机序列如何影响基因表达。研究专注于非编码DNA序列的一个特定子集——启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。

研究人员还设计了一种计算方法,将来自框架的预测绘制到二维图上。这种二维可视化表示适应度地形的独特方式,使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变,甚至有望为基因治疗和工业应用设计自定义的基因表达模式。

这项研究因其在设计生物DNA序列方面的重要影响而受到诸多关注,一些研究人员希望将该模型用于设计基因治疗的非编码DNA序列。该项工作近期已经有了一些具体的应用,包括在酿造、烘焙和生物技术中为酵母自定义设计调控DNA

信息来源:

https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

https://www.nature.com/articles/s41586-022-04506-6

人工智能学家.https://mp.weixin.qq.com/s/G1GVUaKbMeqhHX042Euh5g

附件: