研究人员用人工智能设计全新的蛋白质结构



研究人员用人工智能设计全新的蛋白质结构


文章图片



研究人员用人工智能设计全新的蛋白质结构



所有的生物都离不开蛋白质 , 蛋白质是一类复杂分子的总称 。 它们能执行很多种功能 , 能让植物利用太阳能产生氧气 , 能帮助你的免疫系统对抗病原体 , 能让你的肌肉进行体力活动 。 许多药物也是蛋白质 。
然而 , 在生物医学研究和药物开发的许多领域 , 还没有合适的天然蛋白质可以作为构建新蛋白质的起点 。 无论是研究人员开发预防新冠病毒感染的新药 , 还是研发能够控制基因表达 , 又或是将细胞转变为计算机 , 这些都需要从头开始创造新的蛋白质 。
这种从头设计蛋白质的过程很难得到期待的结果 。 像我这样的蛋白质工程师一直在试图找到更高效、更准确地设计出具有我们需要特性的新蛋白质的方法 。 幸运的是 , 一种被称为深度学习的人工智能可能会是一种准确高效的方式来创造以前不存在的蛋白质——“幻想” 。
从头开始设计蛋白质
【研究人员用人工智能设计全新的蛋白质结构】蛋白质是由成百上千个被称为氨基酸的分子组成的 。 这些氨基酸相互连接组成长链 , 经折叠后形成蛋白质 。 这些氨基酸相互连接的顺序决定了一个蛋白质独特的结构和功能 。
蛋白质工程师在设计一种新蛋白质时面临的最大挑战是找到一种能够执行所需功能的蛋白质结构 。 为了解决这个问题 , 研究人员通常会以具有类似功能的天然蛋白质为模板 。 这些模板对于如何创造出特定蛋白质的独特折叠方式有着指导意义 。 然而 , 由于必须为每个单独的折叠方式创建一种模板 , 这种策略是耗时耗力的 , 并且受到自然界中可用蛋白质的限制 。
在过去几年里 , 很多研究组 , 包括我所在的实验室 , 已经开发了许多专门的深度神经网络——一种使用多个处理层从输入数据中“学习” , 从而对需要的输出结果做出预测的计算机程序 。
当需要的输出结果是一种新的蛋白质时 , 描述一种蛋白质不同层面的数百万个参数就会被输入到网络中 。 我们所预测的是一个随机选择的氨基酸序列通过映射最有可能形成的3D结构 。 对于随机氨基酸序列的网络预测是模糊的 , 这意味着蛋白质的最终结构不是非常清晰 , 然而自然形成的蛋白质和从头构建的蛋白质都能产生更加清晰的蛋白质结构 。
幻想出新蛋白质
这些观测结果暗示了一种从零开始生成蛋白质的方法——通过调整网络的随机输入 , 直到预测产生一个清晰明确的结构 。
我和我的同事开发的蛋白质生成方法在概念上类似于计算机视觉方法 , 比如谷歌的DeepDream , 它可以发现并增强图像中的样式 。 这些方法的工作原理是 , 将经过训练能够识别人脸或其他图像模式(如动物或物体的形状)的网络进行反向 , 让它们学会识别这些不存在的模式 。 例如 , 在DeepDream中 , 它会对任意输入的图像进行调整 , 直到能够识别出图像中的人脸或其他形状 。 尽管最终的图像对于人来说并不太像一张脸 , 但是对于神经网络来说却很像 。

DeepDream中通过调整图像进行识别 。
这种技术的产物通常被称作幻觉 , 同样被用来命名我们所设计的蛋白质 。
我们的方法是先使一个随机氨基酸序列通过深度神经网络 。 最初的预测结果是模糊的 , 结构不清晰 , 正如我们对随机序列所预期的那样 。 然后 , 我们引入一个突变 , 将链中的一个氨基酸换成另一个氨基酸 , 并将这个新序列再次通过深度神经网络 。 如果这种改变使蛋白质的结构更加清晰 , 那么我们就保留这个氨基酸 , 并在序列中引入另一个突变 。

使用幻觉方法构建蛋白质 。
随着这个过程的每一次重复 , 蛋白质会越来越接近它们在自然条件下形成的真实形状 。 要创造一种全新的蛋白质需要成千上万次的重复 。
利用这个过程 , 我们生成了2000个预计可以折叠成明确结构的新蛋白质序列 。 其中 , 我们挑选了100个形状最独特的 , 在实验室中进行物理重构 。 最后 , 我们选择了三个最佳候选对象进行详细分析 , 并确认它们与我们幻觉模型预测的形状非常接近 。
为什么要幻想新蛋白质?
我们的幻觉方法极大地简化了蛋白质设计流水线 。 通过消除对模板的需求 , 研究人员可以直接专注于根据所需功能创建蛋白质 , 并让神经网络来为他们找出结构 。

推荐阅读