"); //-->
在药物发现和材料科学中,活性和性质预测模型是及其重要的工具,但目前采用的模型一般需要根据新需求在目标数据上进行训练或微调。语言模型可以通过零/少样本能力处理新的任务,但其活性预测的预测质量较差。为此,作者提出了一种新型活性预测模型,通过理解描述任务的文本信息,能够在推理时适应新的预测任务。
分子活性和分子性质预测模型是计算药物发现中的主要工具,类似于自然语言处理(NLP)中的语言模型和计算机视觉(CV)中的图像分类模型,并且已经发展了数年。
分子编码器从化学结构中提取相关特征,并在生物活性数据上进行训练。由于活性数据的标签来自于湿实验,标注方式十分繁杂并且昂贵,因此人们对能够在少量数据点上高效训练活性预测模型的方法非常感兴趣。最近提出的基准数据集FS-Mol为活性预测任务提供了仅四个标记分子,因此模型必须能够有效地从其他任务中转移知识,这显然不试用于如上图a部分所示的模型构建形式。同时,湿实验中有关活性预测任务的文本描述中可能也有大量信息,但目前的活性预测模型(以上图a部分所示模型为代表)无法利用这些信息。
对于语言模型而言(上图b部分所示),虽然其结合了自然语言和化学结构的信息,但它们在活性预测方面仍表现不佳,其效果受限于隐式分子编码器和训练数据量等因素。作者认为,选择有效的分子编码器并利用带自然语言的化学数据库作为训练或预训练数据,可以改进上述两种模型的缺点,以提高活性预测的性能。为此,作者出了一种具有两个独立模块的模型结构(CLMAP)。第一个模块是分子编码器,第二个模块是文本编码器,两者在这两种数据模态之间进行基于对比学习的预训练,如上图c部分所示。值得注意的是,目前流行的对比学习框架(没有标签的成对数据),将匹配数据对与生成的不匹配数据对进行对比,而作者在这里采用的是依据数据集已有的标签来构建文本和分子的数据对(即分子对文本描述的任务有活性时,设置为匹配的数据对,无活性时,为不匹配对)。
实验结果
零样本迁移学习:作者在FS-Mol和PubChem这里两个数据集上对CLAMP的能力与其他方法做了对比。可以看到,基于纯自然语言的模型GAL和KV-PLM并不能很好的做好零样本下的迁移学习。值得注意的是,FH是目前最好的方法,CLAMP仍能够在各种数据集划分的方式下打败它。
模型表示能力:为了检查模型学习到的分子表示是否可转移到其他任务上,文章选取MoleculeNet作为基准数据集,将CLAMP与其他方法进行对比。通过在分子表示层特征进行线性调整之后,CLAMP效果甚佳,在大部分情况远超已有模型。
结论
作者提出的对比学习方法 CLAMP 在多个大型数据集上展现出了最佳的零样本预测药物活性的表现。除此之外,CLAMP 的预训练分子编码器能够产生有效的分子编码,可以迁移到其他分子属性预测任务上。作者还指出,尽管语言模型原则上可以用于零样本活性预测,但它们在这个任务上表现不佳,并且计算成本较高。
参考资料
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。