重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么


重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么


文章图片


重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么


文章图片



来源:DeepMind

一个“蛋白质宇宙”诞生了 。 2021年7月刚推出之际 , AlphaFold数据库拥有35万个蛋白质预测结构 , 如今这个数据达到了2.14亿个 , 库容翻了610倍 。
7月28日 , DeepMind公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种 , 包括动物、植物、细菌、真菌等等 , 据《自然》官网报道 , DeepMind的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称 , 在超过2.14亿个预测结构中 , 约35%与实验确定的蛋白质结构一样高度准确 , 另外45%的预测结构也到达了很高的可信度 , 能用于后续多种研究和应用 。
从建立之初 , 这个数据库就是免费开放的 , 如今已成为科学家的必备工具 。 据EMBL-EBI数据 , 迄今已有超过1000篇科学论文引用了AlphaFold数据库 , 来自190个国家的50多万名研究人员访问过该数据库 , 查看了超过200万个蛋白质结构 。 目前 , DeepMind测定的这些蛋白质结构也被整合到其他的公共数据库中 , 将为数百万研究人员的日常工作提供参考 。

相比于1年前 , AlphaFold数据库中的蛋白质结构数据量增加了600多倍 , 涵盖了物种也达到了100万种
AlphaFold数据库就是蛋白质结构的“谷歌搜索” , 要认识某个蛋白质结构只需在数据库搜索可立即获得结果 , 这可以让科学家能够集中精力加快实验研究 。 按照DeepMind创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)的看法 , 这是迄今为止人工智能系统在推进科学发展中做出的最大贡献 。 他在DeepMind的官方博客中称 , 从抗击疾病到开发疫苗 , AlphaFold已经取得了令人难以置信的进展 , 而这只是开始 。
2亿个数据有什么用从科研人员对该数据库的热情就可以想见其对科学研究的价值 , 仅DeepMind在《自然》杂志上发表的2篇论文已被引用超过4000次 。 可以说 , AlphaFold实现了AI在生命科学领域的雄心 。 斯克利普斯研究所创始人埃里克·托普(Eric Topol)的看法是 , AlphaFold是AI在生命科学领域取得的唯一的重大进展 , 以前确定一个蛋白质的三维结构需要数月或数年 , 现在只需要几秒钟 。
托普说 , AlphaFold已经加速并促成大规模的蛋白质结构被破解 , 包括核孔复合体的结构 , “我们可以期待每天都有更多的生物之谜被揭示” 。 事实上 , 按照哈萨比斯的说法 , 这个数据库的价值可以覆盖从了解疾病到保护蜜蜂 , 从解决生物学难题到深入研究生命起源本身 , 对解决一些重要的问题 , 例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等 , 都将产生重大的影响 。
该数据库已经在疟疾的治疗中发力了 。 今年5月 , 牛津大学的生物化学教授马修·希金斯(Matthew Higgins , 从事疟疾研究)领导的研究团队宣布 , 他们已经使用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的结构 , 并找出能阻止疟原虫传播的抗体可能结合的位置 。
希金斯在接受《卫报》采访时称 , 他们之前采用蛋白质晶体学技术来计算这种分子结构 , 但多年来一直没有取得突破 , 因这种蛋白质的结构动态性强并且会到处移动 , 而在将AlphaFold预测的结构模型与实验数据结合后 , 他们顺利地解决了这一难题 。 他们准备将最新的研究成功用于设计优化的疫苗 , 以诱导感染者产生最有效的、能阻断疟疾传播的抗体 。

目前借助于AlphaFold , 已经发表的蛋白质结构(图片来源:DeepMind)
而环境研究 , 也会因为这一数据库而受益 。 据《卫报》 , 英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰·麦吉汉(John McGeehan)正在使用AlphaFold来识别自然界中的酶的结构 , 以期找到能消化和回收塑料的酶 。 他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能 。
DeepMind表示 , 该公司在与其他机构和组织合作时 , 会优先考虑最富社会效益的项目 。 他们与被忽略疾病药物研发组织(DNDI)合作 , 帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响贫困地区的疾病的治疗 , 以及对世界卫生组织(WHO)列为优先研究项目中的关键蛋白质结构进行预测 , 包括麻风病和血吸虫病等 。

推荐阅读