预测|困扰科学家近半个世纪的蛋白质折叠难题破了!这回又是AI揭的秘——

在2020年各种重大科学新闻评选中 , “人工智能预测蛋白质 三维结构”是上榜率很高的一项内容 。 50年来 , 科学家们一直在努力解决 生物学最大的挑战之一——预测一串氨基酸在变成工作蛋白质时折叠成的精确三维形状 。 今年 , 他们通过一款人工智能程序 , 实现了这一目标 。 那么 , 这个工作的意义是什么?人工智能又是如何做到这一点的?

预测|困扰科学家近半个世纪的蛋白质折叠难题破了!这回又是AI揭的秘——
文章图片

蛋白质折叠示意图
困扰科学家近50年的难题
我们的生命离不开蛋白质 。 蛋白质是一切生命活动的基础物质 , 它是运输氧气的载体 , 是帮助抵御病毒的 抗体 , 也是消化食物的酶 。 蛋白质之所以能够承担多种多样的功能 , 很大程度上是因为它们具有丰富而复杂的空间结构 。
可是 , 蛋白质如何折叠成这些独特的形状呢?这是生物学领域的一个重大挑战 , 已经困扰科学家们近50年时间 。 而就在最近 , 英国DeepMind公司研究人员创建的人工智能系统AlphaFold将蛋白质结构预测的准确度提高到了原子水平 , 可以说基本解决了这个“蛋白质折叠问题” 。 这比许多科学家的预期要早了几十年 , 显示出AI 对解决重大科学问题的潜力 。
蛋白质占据我们每个人体重的大约20% , 是除水分(60%)以外第二多的物质种类 , 其它的脂质、碳水化合物、核酸以及各种无机物加起来 , 也仅仅占到20% 。 蛋白质在人体中含量如此之高并不奇怪 , 因为蛋白质是生命活动的主要承担者 , 没有蛋白质就没有生命 。
人类的生命活动须臾都离不开蛋白质的参与 。 无论是身体收缩肌肉、眼睛感知光亮 , 还是消化系统将食物转化为能量 , 我们身体的每一项功能之所以能够正常行使 , 几乎都依赖于蛋白质 。
目前地球上已知的蛋白质大约有两亿种 , 每一种蛋白质都有独特的空间结构 。 蛋白质在生物体中能够发挥多种多样的功能 , 很大程度上取决于它们的三维结构 。
例如 , 我们免疫系统中的抗体蛋白是“Y形”的 , 并且会形成独特的钩状 , 这使得它们能够附着在病毒和细菌上 , 检测和标记致病微生物 , 将其彻底消灭 。 胶原蛋白的形状像拧起来的绳索 , 因而能够在软骨、韧带、骨骼和皮肤之间传递张力 。 还有在被称为“基因魔剪”的CRISPR-Cas9基因编辑技术中 , Cas9蛋白质利用CRISPR基因序列作为向导 , 像剪刀一样灵巧地剪切和粘贴DNA片段 。
然而 , 确定蛋白质的空间结构一直是生物学中的巨大挑战 。 1972年 , 也就是将近50年前 , 诺贝尔化学奖得主克里斯蒂安·安芬森就猜测 , 蛋白质的 氨基酸序列应该可以完全决定其空间结构 。 可是要如何根据蛋白质的氨基酸序列来确定它的空间结构呢?这就是困扰科学家们近50年的“蛋白质折叠问题” 。

预测|困扰科学家近半个世纪的蛋白质折叠难题破了!这回又是AI揭的秘——
文章图片

诺贝尔化学奖得主克里斯蒂安·安芬森
蛋白质如何将自己折叠起来
蛋白质就像是一台精心组装的机器 , 它的零件是我们身体内的20种氨基酸 。 在基因编码合成氨基酸序列的过程中 , 一个个氨基酸分子遵照基因序列中蕴含的遗传信息指令 , 像珠子一样有序缀连起来 , 形成多肽链 , 构成蛋白质的一级结构 。
然而 , 通常的机器只要按照设计图将零件组装起来就可以运转 , 而氨基酸分子连接成多肽链后 , 蛋白质分子的建造还没有结束 , 它还需要进一步折叠出空间结构才能发挥功能 。 可是基因序列只决定氨基酸序列的合成 , 并不包含更多信息指导它如何折叠成独特的三维结构 。
事实上 , 氨基酸序列的折叠方式蕴含在自身之中 , 它们自己设计自己如何折叠 。 一维多肽链中的氨基酸分子像是懂得彼此沟通一样 , 它们有些相互排斥 , 有些彼此吸引 , 形成螺旋、折叠成褶皱 , 构成蛋白质的二级结构 。 接着 , 它还会进一步折叠成独特的空间结构 , 像一根毛线绕成线团那样 , 构成蛋白质的三级结构 。
整个蛋白质折叠的过程看似随机 , 却又仿佛遵循着一张设计蓝图 , 一旦组成蛋白质的氨基酸序列确定下来 , 它的折叠方式也就完全确定了 。 这实际上很符合直觉 , 我们可以想象 , 如果同样的氨基酸序列可以折叠成不同结构的蛋白质 , 发挥不同的功能 , 我们的身体内部会陷入怎样的混乱状态 。
自然界经过漫长的生命进化过程 , 蛋白质分子在一眨眼之间就能够自发地完成整个折叠过程 。 但科学家们发现 , 如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠 , 那么要穷尽所有可能的蛋白质构型 , 需要的时间将比整个宇宙年龄还要长 。
这个问题困扰了科学家们很长时间 。 但是在人工智能进入这个领域后 , 预测蛋白质折叠的准确性很快获得提升 。
AI出手精确预测蛋白质结构
人工智能(AI)的一种实现手段是时下流行的 机器学习 。 2016年打败人类围棋冠军的AlphaGo和此次预测蛋白质结构的AlphaFold , 利用的都是机器学习算法 。 它的大致思路是 , 先将大量已有的数据——包括结果(比如围棋棋谱、猫狗图片等)输入计算机 , 然后计算机对这些数据进行分析 , 利用它惊人的计算能力从这些数据中寻找特征或规律 。 这样 , 对于以后输入的新数据 , 它就能作出“富有经验”的高明反应了 。
更为先进的人工智能算法甚至允许只输入很少量的学习样本 , 就能掌握相关技能 。 比如AlphaGo的升级版本根本不需要输入棋谱 , 只要知道围棋的规则 , 就能根据算法对规则进行自我摸索和训练 , 通过自己跟自己对弈 , 最终获得超越人类顶级围棋高手的能力 。
AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似 , 只不过输入的是大量蛋白质的序列和结构数据——这些数据来自实验室中实际测得的数据 。 AlphaFold从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系 , 从而获得了预测蛋白质结构的强大能力 。 最终 , 只要知道蛋白质的氨基酸序列 , 就能迅速而准确地预测出它的结构 , 相当于通过精妙的算法 , 将蛋白质的一级结构和三级结构准确地联系了起来 。
在2018年的蛋白质结构预测竞赛中 , AlphaFold在所有参赛团队中排名第一 , 准确地从43种蛋白质中预测出了24种蛋白质的结构 , 取得了前所未有的进步 。
到了2020年 , AlphaFold的升级版本从生物学、物理学和机器学习领域的最新进展中汲取灵感 , 升级算法 , 再次以压倒性的优异成绩夺冠 。 这一次 , AlphaFold预测的多种蛋白质结构与实验结果仅仅存在原子尺度的细微差异 , 达到了与传统的试验方法相媲美的程度 , 可以说AlphaFold基本解决了蛋白质折叠问题 。
AI会让生物学家失业吗
AlphaFold取得里程碑性质的进展 , 让人类有望在诸多领域得到来自AI的切实助力 。 例如在医药领域 , 阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变都与蛋白质的错误折叠有关 , 这直接导致蛋白质结构和功能出现异常 。 而AI的介入将让人类更有效地了解这些错误折叠背后的机理 , 从而提出更加有效的治疗方案 。 又如新冠病毒 , 大约由30种蛋白质组成 , 在2020年蛋白质结构预测竞赛中 , AlphaFold精确预测了其中一种蛋白质(ORF8)的结构 。
工业领域同样会受到这一成就的积极影响 。 以酶化工为例 , 多种蛋白酶已经作为反应催化剂获得了广泛应用 。 其中很多种都是人类近年才发现的新型蛋白质 , 它们个个身怀绝技 , 有些能够分解原油、有些能够降解塑料 。 对于这些蛋白质的结构和催化机理 , 我们目前都只有非常初步的认识 , AI无疑将大大加速相关研究的进展 。
有趣的是 , 在听闻AlphaFold解决了蛋白质折叠问题的消息后 , 很多人调侃说 , 结构生物学家以后要失业了 。 不过事实上 , AlphaFold只是为结构生物学家们提供了获得蛋白质结构的一种手段 , 正如传统的核磁共振、X射线衍射和冷冻电镜方法一样 。 这些特定结构在生命体中如何发挥功能 , 才是更需要结构生物学家们回答的问题 。
如著名结构生物学家颜宁所言 , 结构只是用来做出生物学发现的手段 。 比如弄清楚剪切体这个庞然大物的结构之后 , 由此揭示出“几百个蛋白质如众星捧月般簇拥着RNA , 一剪子一钩针地剪接DNA序列中的内含子和外显子” , 这个过程才是真正的神奇 。
除了预测蛋白质结构 , AlphaFold也将促进蛋白质设计的发展 。 在未来 , AI或许可以帮助人类根据自身独特需要 , 创造出自然界中原本不存在的蛋白质 。 届时 , 必将是生命科学的一次飞跃 。
【预测|困扰科学家近半个世纪的蛋白质折叠难题破了!这回又是AI揭的秘——】(作者为大阪大学免疫前沿研究中心研究员)

    推荐阅读