基于深度学习的VOCs分子毒性预测方法、装置和介质

未命名 09-29 阅读:81 评论:0

基于深度学习的vocs分子毒性预测方法、装置和介质
技术领域
1.本发明属于vocs组分分子分子毒性检测领域,尤其是一种基于深度学习的vocs组分分子毒性预测方法、装置、存储介质。


背景技术:

2.人类在与外界的vocs气体接触时,经常会出现因未正确识别vocs气体和未正确预测vocs气体毒性,就进行相关接触,对人体造成伤害。为了防止人类受到潜在的有害影响,vocs必须要经过可靠的不良影响测试,特别是毒性测试。vocs对人体健康的影响目前需要通过大量的时间和成本密集型的体内或体外实验来评估。
3.目前使用了广泛的计算方法来预测vocs组分分子毒性,其中的大部分方法利用了机器学习的技术手段。这些方法通过化学描述符表示化合物特征,被输入一个预测器。预测化合物毒性的方法通常被分为“基于相似性的方法”和“基于特征的方法”。
[0004]“基于相似度的方法”建立在相似的化合物应该具有相似的生物特性的观点之上,主要为计算化合物之间的成对相似度矩阵,随后使用预测算法对矩阵进行处理。“基于特征的方法”则要么选择输入特征(化学描述符),要么通过一个分数或一个模型参数对化合物进行分析,“基于特征的方法”包括:(广义)线性模型,随机森林,以及基于朴素贝叶斯的评分方案等。
[0005]“基于相似度的方法”需要在两个化合物之间进行适当的相似性度量,该度量可以使用基于特征、基于二维图或化合物的三维表示。基于图形的度量促进了图形法和分子核法的诞生,但是图形法和分子核法不能自动创建任务特殊特征或新的化学特征。与“基于相似度的方法”相比,“基于特征的方法”,需要深入了解化学和生物的特性和过程,如分子之间的相互作用,反应和酶,以及分子的代谢修饰。因此,现在需要一种合适的方法,该方法既可以自动创建任务特殊特征或新的化学特征,又无需测试者对化学和生物的特性和过程的了解程度有较高的要求。


技术实现要素:

[0006]
本发明的目的在于利用深度学习技术手段实现vocs挥发性有机物组分分子毒性预测,使该方法既可以自动创建任务特殊特征或新的化学特征,又无需测试者对化学和生物的特性和过程的了解程度有较高的要求。
[0007]
本发明所采取的技术方案是:
[0008]
本发明提供了一种基于深度学习的vocs分子毒性预测方法,包括:
[0009]
从毒性预测标准数据集所包含的环境化学物质和药物中,获取分子指纹;
[0010]
通过深度学习算法处理获取的分子指纹,构建vocs毒性预测模型;
[0011]
向构建完成的vocs毒性预测模型中输入被测vocs物质的分子参数,获得所述被测vocs物质的毒性预测结果。
[0012]
进一步地,所述毒性预测标准数据集包括tox21数据标准数据集。
[0013]
进一步地,所述方法还包括对vocs分子进行预处理,预处理的步骤包括:
[0014]
将vocs化合物的化学特征表征化;
[0015]
计算分子所述vocs化合物的化学分子的分子指纹。
[0016]
进一步地,所述从毒性预测标准数据集所包含的环境化学物质和药物中,获取分子指纹这一步骤包括:
[0017]
从被测vocs物质中,随机标定一个原子;
[0018]
设定出发半径,以所述原子为起点,统计出发半径以内的分子结构的数量。
[0019]
进一步地,所述构建完成的vocs毒性预测模型,包括前馈神经网络和relu激活函数;所述构建完成的vocs毒性预测模型的前馈神经网络对所述输入的vocs物质的分子指纹进行特征抽取,并学习分子指纹特征向量潜在的深层语义关系,对所述输入的vocs物质进行准确的编码。
[0020]
进一步地,所述构建完成的vocs毒性预测模型包括输入层、输出层、隐藏层;所述隐藏层包括第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层;所述第一隐藏层的还包括1024个隐藏单元,第二隐藏层还包括2048个隐藏单元,第三隐藏层还包括.隐藏单元,第四隐藏层还包括隐藏单元。
[0021]
进一步地,所述构建完成的vocs毒性预测模型为避免过拟合,dropout算法和l2权重衰减算法协同工作,以避免过拟合;所述dropout算法的丢弃率设置为0.5;所述构建完成的vocs毒性预测模型还以auc评分标准评估模型的质量标准,并通过交叉验证确定最佳超参数。
[0022]
进一步地,所述构建完成的vocs毒性预测模型在训练过程中采用了随机梯度下降算法;所述随机梯度下降算法采用了早期停止的方法;所述早期停止的方法中学习时间由交叉验证确定,具体包括:
[0023]
将被测vocs物质的训练数据集划分为训练集和验证集;
[0024]
训练集进行数据训练,并在每个周期上计算模型在验证集上的误差;
[0025]
当模型在验证集上的误差比上一次训练结果差的时候停止训练;
[0026]
使用上一次迭代结果中的参数作为模型的最终参数。
[0027]
另一方面,本发明还提供了一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行任一项所述的基于深度学习的vocs分子毒性预测方法。
[0028]
另一方面,本发明还提供了一种计算机可读存储介质,其中存储用处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行任一项所述的基于深度学习的vocs分子毒性预测方法。
[0029]
本发明的有益效果是:利用深度学习技术手段实现vocs挥发性有机物组分分子毒性预测,并与现有的vocs毒性预测方法进行对比,结果表明基于深度学习的vocs毒性预测方法表现效果明显优于当前基于相似度和基于特征的方法,且该方法简单易用,输入相应的参数即可得到测试结果,对测试人员更加友好。
附图说明
[0030]
图1为本发明实施例的方法流程简图;
[0031]
图2为本发明实施例中所述的deepvocstoxpredict模型的模型结构。
具体实施方式
[0032]
下面结合说明书附图和具体的实施例对本技术进行进一步的说明。所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0033]
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0034]
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
[0035]
本发明实施例以深度学习、卷积网络、分子指纹、tox21大数据及毒性分析处理为理论基础,针对环境vocs监测数据进行分子指纹特征处理,并建立基于deepcnn的深度学习模型进行vocs成份分子的毒性预测分析处理,为环境保护中的vocs治理提供支撑。
[0036]
下面为与本发明实施例有关的属于解释:
[0037]
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
[0038]
tox21:在《21世纪的毒性测试:展望和策略》的报告中,指出了毒性测试策略转变需要实现如下目标:(1)实现对化学品,化学混合物,不同结局和生命阶段的广泛覆盖;(2)减少毒性测试所需的费用和时间;(3)发展用于评定环境因子健康效应的更为可靠的科学基础;(4)将测试中的动物使用数量降到最低.报告重点提出了毒性测试和危险性分析的总体框架,毒性测试方法。
[0039]
分子毒性:分子病理学是在毒理学的发展过程中,受到分子生物学理论和技术的促进而发展起来的,它是从分子水平上研究外源化合物与生物机体相互作用的一门学科。一方面,它要探究总舵的外源化合物对生物机体组织中的各种分子,特别是生物大分子的作用机制,从而阐明外源化合物的分子结构与其毒效应的相互关系,另一方面则是要从分子水平上表述生物体对外源化合物的效应。
[0040]
分子性质:分子性质包括分子(包括药物)的化学性质、物理性质和结构性质。分子特性通常不包括化合物的药理或生物特性。
[0041]
deepvocstoxpredict:本发明通过训练产生的vocs组分分子毒性预测模型。
[0042]
sdf:structure data file,常见的化学数据文件,被广泛应用于计算化学,化学信息学等领域。
[0043]
人类在与外界的vocs气体接触时,经常会出现因未正确识别vocs气体和未正确预测vocs气体毒性,就进行相关接触,对人体造成伤害。为了防止人类受到潜在的有害影响,vocs必须要经过可靠的不良影响测试,特别是毒性测试。vocs对人体健康的影响目前需要
通过大量的时间和成本密集型的体内或体外实验来评估。
[0044]
目前使用了广泛的计算方法来预测vocs组分分子毒性,其中的大部分方法利用了机器学习的技术手段。这些方法通过化学描述符表示化合物特征,被输入一个预测器。预测化合物毒性的方法通常被分为“基于相似性的方法”和“基于特征的方法”。
[0045]“基于相似度的方法”建立在相似的化合物应该具有相似的生物特性的观点之上,主要为计算化合物之间的成对相似度矩阵,随后使用预测算法对矩阵进行处理。基于相似性的方法是基于相似度算法的一种判别方法,例如:欧式距离,余弦相似度,等方法是通过直接计算两个向量之间的距离,来判定是否相似,距离越近越相似,可见这种方法对只能表示数据之间简单的关系,无法挖掘复杂特征关系。
[0046]“基于特征的方法”是传统机器学习常用的一种方法,需要特定领域专家进行人工的设计特征交互,在这工程中耗时耗力,而且通常情况下传统的机器学习模型对数据的挖掘特征能力低,不能完全的发现数据中潜在关系特征。若要在本发明所解决的问题上使用此方法,则要么选择输入特征(化学描述符),要么通过一个分数或一个模型参数对化合物进行分析。“基于特征的方法”包括:(广义)线性模型,随机森林,以及基于朴素贝叶斯的评分方案等。
[0047]“基于相似度的方法”需要在两个化合物之间进行适当的相似性度量,该度量可以使用基于特征、基于二维图或化合物的三维表示。基于图形的度量促进了图形法和分子核法的诞生,但是图形法和分子核法不能自动创建任务特殊特征或新的化学特征。与“基于相似度的方法”相比,“基于特征的方法”,需要深入了解化学和生物的特性和过程,如分子之间的相互作用,反应和酶,以及分子的代谢修饰。因此,现在需要一种合适的方法,该方法既可以自动创建任务特殊特征或新的化学特征,又无需测试者对化学和生物的特性和过程的了解程度有较高的要求。
[0048]
现如今,深度学习已经成为一个非常成功且被广泛使用的技术手段,它对信号和信息处理技术产生了很大的影响。目前深度学习也在尝试应用于预测生物分析的结果,这使其成为分子毒性预测的主要候选对象成为了可能。本发明实施例所提出的方案,提出的是一种基于深度学习神经网络的一种方法,通过搭建神经网络,通过数据的一遍遍迭代,自动的优化模型自身参数,从而拟合数据。这种方法的优势是不需要人工参与特征工程,且根据模型网络的深度增加,可以大大地提高模型对特征之间关系的挖掘能力。
[0049]
本发明实施例提供了一种基于深度学习的vocs组分分子毒性预测技术,利用深度学习技术手段实现vocs挥发性有机物组分分子毒性预测,并与现有的vocs毒性预测方法进行对比,结果表明基于深度学习的vocs毒性预测方法表现效果明显优于当前基于相似度和基于特征的方法,且该方法简单易用,输入相应的参数即可得到测试结果,对测试人员更加友好。
[0050]
图1为本发明实施例的方法流程简图,图2为本发明实施例中所述的deepvocstoxpredict模型的模型结构,下面结合图1对本发明实施例进行简述。
[0051]
基于深度学习的vocs组分分子毒性预测方法具体步骤如下:
[0052]
s1.根据毒性预测标准,预处理vocs组分分子数据;
[0053]
s2.使用深度学习算法处理所述预处理后的vocs组分分子数据,构建vocs毒性预测模型;
[0054]
s3.向所述vocs毒性预测模型中输入vocs物质的组分分子参数,得到所述vocs物质的毒性预测结果。
[0055]
步骤s1中,为了利用深度学习进行毒性预测,本发明实施例使用rdkit工具包将vocs化合物的化学表征标准化,计算出化学分子的分子指纹,作为深度学习方法的输入参数。化学分子的分子指纹有多种不同的计算方法,本发明实施例中采用morgan fingerprint法,通过设定一个从特定原子出发的半径,来统计这个半径以内的部分分子结构的数量,组成一个分子指纹。
[0056]
tox21给出了一个包含12,707种化合物的数据集,其中训练集包含11,764个样本,验证集包含296个样本和测试集的647个样本,以获得12种不同毒性缺陷的化学结构和分析测量数据。这些化合物以sdf格式给出,其中包含化学结构为无向的、有标记的图,其节点和边分别代表原子和键。
[0057]
步骤s2中,本发明实施例提出的deepvocstoxpredict模型由多层前馈神经网络和relu激活函数构成,这些神经网络层对输入化合物的分子指纹进行特征抽取,学习分子指纹特征向量潜在的深层语义关系,从而对化合物进行准确的编码。deepvocstoxpredict模型由多层relu组成,然后是一层输出单元,每个任务对应一个。一个输出单元用于单任务学习。在deepvocstoxpredict模型中,每层隐藏单元的数量分别为1024、2048、4096、8192,deepvocstoxpredict使用随机梯度下降算法,反向传播优化模型参数,批次大小设置为512。为了规范学习结果,在deepvocstoxpredict中实现了dropout辍学和l2权重衰减,他们协同工作,以避免过拟合。所述dropout的丢弃率设置为0.5。此外,本发明实施例中采用tox21数据集的训练集进行模型训练,当验证集的损失连续几轮不再下降时进行,停止模型训练。此技术为早期停止技术,用于加快训练速度,避免训练过拟合,其中的学习时间是由交叉验证确定的,以auc评分来作为评估模型的质量标准,通过交叉验证确定最佳超参数,即使采用了多任务网络,超参数也对每个任务进行了优化。
[0058]
随机梯度下降算法沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。在每次更新时用所有样本,在梯度下降中,所有的样本数据都对模型优化产生了贡献,也就是参与调整参数,最后计算得到的是一个标准梯度。而对于最优化问题、凸问题,此方法也同样可以选择达到全局最优,因而理论上一次更新的幅度是比较大的。然而,由于样本数量较多,导致模型进行完整更新一次的时间过长,不合适在日常研究中使用,本发明实施例为了兼顾参数优化效率,选择了批数据的参数迭代方式,批次大小设置为512。
[0059]
步骤s3中,在构建完vocs毒性预测模型之后,输入vocs物质,通过模型分析输出vocs的毒性预测结果。监测结果是对常见的十二种毒性的预测,输出结果是一个长度为十二的数组,对应十二种毒性,1代表这种毒性呈活性、0代表这种毒性呈非活性。
[0060]
以上是对本发明的较佳实施例进行了具体说明,但对本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:
1.一种基于深度学习的vocs分子毒性预测方法,其特征在于,包括:从毒性预测标准数据集所包含的环境化学物质和药物中,获取分子指纹;通过深度学习算法处理获取的分子指纹,构建vocs毒性预测模型;向构建完成的vocs毒性预测模型中输入被测vocs物质的分子参数,获得所述被测vocs物质的毒性预测结果。2.根据权利要求1所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述毒性预测标准数据集包括tox21数据标准数据集。3.根据权利要求1所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述方法还包括对vocs分子进行预处理,预处理的步骤包括:将vocs化合物的化学特征表征化;计算分子所述vocs化合物的化学分子的分子指纹。4.根据权利要求3所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述从毒性预测标准数据集所包含的环境化学物质和药物中,获取分子指纹这一步骤包括:从被测vocs物质中,随机标定一个原子;设定出发半径,以所述原子为起点,统计出发半径以内的分子结构的数量。5.根据权利要求1所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述构建完成的vocs毒性预测模型,包括前馈神经网络和relu激活函数;所述构建完成的vocs毒性预测模型的前馈神经网络对所述输入的vocs物质的分子指纹进行特征抽取,并学习分子指纹特征向量潜在的深层语义关系,对所述输入的vocs物质进行准确的编码。6.根据权利要求1所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述构建完成的vocs毒性预测模型包括输入层、输出层、隐藏层;所述隐藏层包括第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层;所述第一隐藏层的还包括1024个隐藏单元,第二隐藏层还包括2048个隐藏单元,第三隐藏层还包括.隐藏单元,第四隐藏层还包括隐藏单元。7.根据权利要求1所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述构建完成的vocs毒性预测模型为避免过拟合,dropout算法和l2权重衰减算法协同工作,以避免过拟合;所述dropout算法的丢弃率设置为0.5;所述构建完成的vocs毒性预测模型还以auc评分标准评估模型的质量标准,并通过交叉验证确定最佳超参数。8.根据权利要求7所述的一种基于深度学习的vocs分子毒性预测方法,其特征在于,所述构建完成的vocs毒性预测模型在训练过程中采用了随机梯度下降算法;所述随机梯度下降算法采用了早期停止的方法;所述早期停止的方法中学习时间由交叉验证确定,具体包括:将被测vocs物质的训练数据集划分为训练集和验证集;训练集进行数据训练,并在每个周期上计算模型在验证集上的误差;当模型在验证集上的误差比上一次训练结果差的时候停止训练;使用上一次迭代结果中的参数作为模型的最终参数。9.一种计算机装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-8任一项所述的基于深度学习的vocs分子毒性预测方法。10.一种计算机可读存储介质,其中存储用处理器可执行的程序,其特征在于,所述处
理器可执行的程序在由处理器执行时用于执行权利要求1-8任一项所述的基于深度学习的vocs分子毒性预测方法。

技术总结
本发明公开了一种基于深度学习的VOCs组分分子毒性预测方法,包括:根据毒性预测标准,预处理VOCs组分分子数据;使用深度学习算法处理所述预处理后的VOCs组分分子数据,构建VOCs毒性预测模型;向所述VOCs毒性预测模型中输入VOCs物质的组分分子参数,得到所述VOCs物质的毒性预测结果。本发明利用深度学习技术手段实现VOCs挥发性有机物组分分子毒性预测,并与现有的VOCs毒性预测方法进行对比,结果表明基于深度学习的VOCs毒性预测方法表现效果明显优于当前基于相似度和基于特征的方法,且该方法简单易用,输入相应的参数即可得到测试结果,对测试人员更加友好。对测试人员更加友好。对测试人员更加友好。


技术研发人员:王文重 程平 黄玉梁 石磊 刘立峰 张建军
受保护的技术使用者:上海大学
技术研发日:2023.05.18
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐