纳米粒子影响的体内数据量显着增加,数据存储和共享方法的开发


纳米粒子影响的体内数据量显着增加,数据存储和共享方法的开发


文章图片


纳米粒子影响的体内数据量显着增加,数据存储和共享方法的开发


文章图片


五年时间框架明确了纳米粒子影响的体内数据量显着增加 , 数据存储和共享方法的开发 , 体内终点的可靠体外模型的开发 , 纳米粒子电晕模型的产生不同环境 , 阐明纳米粒子进入细胞的机制和毒性 , 如自由基产生、基因毒性和细胞凋亡 。 十年计划规定了应在 2020 年之前完成的里程碑:创建足以可靠用于监管目的的纳米粒子的体外和体内效应的机器学习 模型;开发能够在不同环境中可靠预测纳米粒子电晕的模型 , 以及开发纳米材料分类指纹 , 使监管机构能够将纳米材料分类为危险类别与目前用于工业化学品的方法类似 。 在本路线图中实现这些里程碑需要维护一个由实验和计算研究人员、监管机构和政策制定者组成的网络 。 这是通过一系列欧盟项目和行动以及最近通过资助至少三个欧盟地平线 2020 项目来完成的 。 这些里程碑还假设将出现用于合成和表征纳米材料的高通量实验方法 , 为训练机器学习 模型提供数据 , 实现这组雄心勃勃的里程碑将为使用合理的“安全”开发功能性和安全性的纳米材料提供工具”原则 。


在接下来的七年里 , 这些雄心勃勃的里程碑只实现了部分 , 主要是因为自动化纳米材料合成和表征方法没有像预期的那样迅速被采用 , 限制了训练模型数据的可用性 。 现在正在更广泛地采用高通量纳米材料合成和表征方法来解决这一缺陷 。 此外 , 马斯特里赫特会议的参与者无法预见机器学习 的惊人发展 , 例如特别是在过去 5 年出现的深度学习和图像处理神经网络 。 最近定义了一组新的 2030 年纳米信息学里程碑 ,基本上呼应、扩展和阐述了之前确定的重要里程碑 。


作者参与的总结了与 纳米 风险评估和治理相关的不同研究领域的最新技术 。 新的路线图确定了其他重大挑战:数据访问受限;需要以监管机构可接受的方式验证计算模型;需要连接和协调数据集 , 例如 , 通过采用跨读和其他填补数据空白的方法 。 机器学习方法严重依赖于足够的训练和验证数据、代表纳米材料特性的相关描述符的生成、最有用的描述符子集的上下文相关选择、模型的稳健训练、模型预测能力的验证以及使用模型来预测新的和改进的材料的特性 , 这些材料通常尚未合成 。 此过程最重要的方面之一是描述符生成 。 有了好的描述符 , 几乎任何机器学习 算法都会生成有用的模型 , 而不能代表材料的描述符总是会生成非常差的模型 。


由于机器学习方法高度依赖于用于训练它们的数据的数量和质量 , 因此用于训练模型的数据集越大、越多样化 , 它们就越能可靠地预测未用于训练模型的新材料的特性 。 楷模 。 目前对纳米材料合成和表征的高通量方法的关注以及毒物基因组数据使用的增加将显着解决这一缺陷 。 不幸的是 , 纳米材料文献中的大多数机器学习研究都是针对多样性有限的小数据集进行训练的 。


【纳米粒子影响的体内数据量显着增加,数据存储和共享方法的开发】从小数据集派生的模型更容易过拟合 , 因为可以使用的描述符数量受数据集大小的限制 。 这组有限的描述符可能不包含有关纳米材料的分子、物理化学和结构特征的足够信息 , 从而无法生成稳健的预测模型 。 从这样的小数据集派生的模型也必然具有小的适用范围 , 因此对于更广泛地预测新纳米材料的特性不是很有用 。 纳米安全研究人员现在正在采用多种方法来解决这些数据集大小问题 , 包括实验设计和“跨读”方法 。 跨读方法是一种非实验性方法 , 用于根据紧密类似物或类似化学类别的特性填补数据空白 。 实验设计是一种设计最少数量的实验的技术 , 该技术涵盖尽可能多的参数空间 , 尽管是稀疏的 。 期望机器学习方法可以对这种活动环境进行建模 , 并提供准确的插值或数据缺口插补 。

    推荐阅读