氨基酸|当AI“进击”蛋白质结构预测


氨基酸|当AI“进击”蛋白质结构预测
文章图片

2017年诺贝尔化学奖得主理查德·亨德森手持一个蛋白质模型
中国结构生物学家饶子和院士的讲话被认为代表了结构生物学界的心声:“我们没必要抗拒人工智能的结构预测算法 , 而是要去拥抱这种新技术 , 因为它只会推动这个领域以更快的速度发展 。 ”
叶盛
字母表公司旗下的人工智能公司深层思维(DeepMind)近期在《自然》杂志上先后发表了两篇关于其开发的用于蛋白质结构预测的人工智能系统AlphaFold 2的研究论文 , 第一篇描述了AlphaFold 2的基本算法原理 , 第二篇宣布将AlphaFold 2开放给全世界研究者使用 , 并且公开了一个由AlphaFold 2已经预测得到的蛋白质结构所组成的数据库 , 该数据库涵盖了人类基因组直接对应的蛋白质中的98.5% 。
就在深层思维发表上述第一篇论文的同一天 , 美国华盛顿大学教授戴维·贝克与国际上多家研究机构合作的团队也在《科学》杂志上发表论文 , 公布了其开发的基于深度学习的蛋白质结构预测程序RoseTTAFold , 并且将全部代码开源 。
正如18世纪末至19世纪初第一次工业革命期间 , 一些工人担心由蒸汽机驱动的大机器会抢夺他们赖以为生的工作岗位一样 , 人工智能(AI)在蛋白质结构预测领域的崛起也让科学圈惊呼:“结构生物学家都要失业了!”
事实果真如此吗?
蛋白质与结构生物学
“蛋白质”或许是科学名词中最糟糕的翻译之一 。 它的英文“protein”源自希腊语 , 有“首要”之义 , 说明蛋白质是生命最为重要的一种组成物质 。 然而 , “蛋白质”这几个汉字却只会更容易让人联想到它的营养价值 。
人体细胞 , 乃至地球上任何一种生命的细胞 , 都是主要由蛋白质构成的 。 所以 , 人才需要摄入蛋白质 , 把它们消化成简单的20种基本氨基酸 , 再由人的细胞按照人自己的基因编码把这些基本氨基酸合成人自身的蛋白质 。
从化学上讲 , 蛋白质就是由很多氨基酸串联在一起形成的一条长链——肽链 。 早在19世纪中叶蛋白质被发现之后不久 , 化学家们就在实验中证实了氨基酸与蛋白质之间的构成关系 。 但人们并不知道氨基酸是以怎样的顺序串联为肽链的 , 更不知道它们在三维空间中的立体结构是怎样的 。 因此 , 化学家们对于蛋白质总是感到“忧心忡忡” 。
他们的担心是有理由的 , 因为仅仅知道一个分子由哪些原子构成 , 并不足以让人们认识这种分子 , 即便是五六个原子构成的分子 , 也存在化学组成相同、立体结构却完全不同的可能 , 被称为“立体异构体” 。
显然 , 当构成分子的原子越多 , 可能形成的不同空间结构也就越多 。 蛋白质作为一种生物大分子 , 其所包含的原子数量成千上万 。 比如与血糖密切相关的胰岛素的化学式是C257H383N65O77S6 , 红细胞中用来携带氧的血红蛋白的化学式是C758H1204O403N195S2Fe , 而这两者还只是相对较小的蛋白质 。 当如此之多的原子构成蛋白质时 , 它们在空间中的排布是怎样的?这个问题的答案很难通过想象或计算得到 , 只能通过实验来测定 。 研究这类问题的科学就是结构生物学 。

推荐阅读