图学习+分子表示学习,飞桨刷新药物分子性质预测榜单

摘要:

百度桨以图学习框架(PGL)和生物计算平台螺旋桨(PaddleHelix)登上权威排行榜OGB的多个分子性质预测任务,在AI药物发现领域取得了新的技术突破 。

正文:

化合物的生物活性筛选是现代药物开发的重要环节,其主要目的是在大量候选化合物中发现对某种药物目标有活性的分子 。传统的活性筛选方法需要合成大量化合物进行生物实验,整个过程的成本高,周期长,成功率低 。通过AI技术进行药物虚拟筛选,取代传统的活性筛选方法,加快中间步骤,大幅度降低研究开发成本 。

国际权威排行榜OpenGraphbenchmark(OGB)的HIV和PCBA数据集包括各种生物活性实验 。其中,HIV数据集关注不同化合物能否抑制HIV病毒在细胞内的复制,PCBA数据集关注不同化合物对100多种疾病目标的有效性 。以增强功能性SMN2蛋白表现的化合物为例,这些化合物可以改善SMN1蛋白突变故障引起的脊髓肌肉萎缩 。成功预测化合物的性质对发现多种疾病的有效药物具有重要意义 。

最近,飞桨在OGB的两个分子性质预测排行榜上名列前茅,在AI药物发现领域取得了新的技术突破 。

飞桨登顶OGB分子性质预测数据集HIV和PCBA

基于飞桨能力实现分子性质预测

【图学习+分子表示学习,飞桨刷新药物分子性质预测榜单】飞桨基于图学习框架PGL,使用深度图神经网络(GNN),配合生物计算平台螺旋桨PaddleHelix对药物发现领域的理解,设计自监督学习任务学习化合物分子表示,并应用到分子性质预测中 。核心技术包括:

分子学习为了输入化合物分子作为图神经网络方法,首先需要特征化化合物分子 。OGB已经为每个化合物提供了一系列基于图形结构的结点和边缘特征,可以对应化合物的原子和化学键,但这些特征比较微观,不能表示化合物分子的宏观化学特征 。飞桨通过表示学习的方法,首次将分子的宏观化学特性(官能团、分子指纹等信息)与图神经网络相结合,获得融合宏观化学特性的分子表示,利用该分子表示获得了ogbg-molhiv的尖 。

图学技术APPNP是基于个性化PageRank改进的特征传播算法,通过反复的方式分析了类似PersonalPageRank 。APPNP算法不会引入额外的模式参数,可以很好地调节局部信息和多层次的邻居关系 。通过将GINEplus和APPNP技术结合起来,在不引入额外的模型参数的情况下,获得更好的模型表现能力,获得ogbg-molpcba的首位 。

飞桨图学习框架PGL

百度深度学习平台飞桨PaddlePaddle开源图学习框架PGL v2.0版本,全面支持动态图机制,可支持百亿规模大图,用户可以通过PGL实现高效而又满足工业应用需求的图神经网络 。PGL支持的百度内外部业务也是遍地开花,全面覆盖推荐系统、搜索引擎、智慧金融、智能地图、安全风控、生物医药等场景 。

生物计算螺旋桨PaddleHelix

螺旋桨PaddleHelix是基于百度深度学习平台飞桨的生物计算平台 。提供了包括RNA二级结构预测、大规模分子和蛋白质表示学习、药物靶点亲和力预测、ADMET成药性预测等,在新药研发和疫苗设计环节具有广阔应用前景的技术能力 。

螺旋桨PaddleHelix可以帮助生物学、药物化学、计算机交叉学科背景的学习者、研究者和合作伙伴更加方便地构建AI算法模型 。螺旋桨PaddleHelix生物计算平台保持开源开放原则,与合作伙伴共同建设共享,将来形成面向行业的生物计算生态和服务 。

想获得更多算法的技术细节,请关注PGL【http://github.com/PaddlePaddle/PGL】和PaddleHelix【http://github.com/PadlePadle/PadleHelix】,比赛相关代码同时开放 。

    推荐阅读