MolReGPT: 利用大型语言模型探索分子发现——分子与文本描述间相互翻译（2）

数据派THU | 2023-06-20 21:00:36 阅读：370

03 结果

分子描述生成任务（Mol2Cap）

表1: 不同模型在ChEBI-20数据集上分子描述生成(Mol2Cap)任务上的性能对比[3,4]。

表3: MolReGPT使用N-shot在分子描述生成(Mol2Cap)任务上的性能对比。
Mol2Cap任务的结果显示在表1和表3，MolReGPT方法可以获得与微调后的MolT5-base[2]相当的ROUGE分数，同时在其余指标上超过了所有选定的基线模型。
另外，在消融实验中，主要比较了三种检索策略的性能，如表3所示：随机、BM25和Morgan FTS（在MolReGPT中采用）。随机策略指的是检索n个随机例子，而BM25则是对分子的SMILES字符串表示采用字符级的BM25算法。在三种检索策略中，Morgan FTS在少样本学习的样本数量相同的情况下表现最好，在Text2Mol[1]指标中甚至比BM25高出37%。
此外，与随机或者BM25检索策略相比，Morgan FTS取得的ROUGE-L得分几乎翻了一倍。Morgan FTS检索策略的使用表明，通过比较独特的结构特征，如官能团，可以更好地估计分子之间的结构相似性，而这些特征通常在分子的描述中以详细的描述体现。在这种情况下，通过Morgan FTS检索相似的分子可以有效地指导LLM学习分子结构和分子描述之间的关联，从而获得更准确和理想的输出。
图8列出了分子文字描述生成的例子，以比较不同模型的性能。从给出的例子中，可以注意到MolReGPT可以生成包含输入分子关键信息的文本描述。更重要的是，生成的标题在语法上更加完善，并且易于人类理解。
图8: 不同模型生成的分子描述的例子（其中SMILES字符串被转换成分子图，以方便更好地展示）。
基于文本的分子生成任务（Cap2Mol）
表2: 不同模型在ChEBI-20数据集上基于文本的分子生成(Cap2Mol)任务上的性能对比。
表4: MolReGPT使用N-shot在基于文本的分子生成(Mol2Cap)任务上的性能对比。
给定一个分子文本描述（包含结构和属性），Cap2Mol的目标是生成相应的分子（即SMILES字符串）用于分子发现。具体的结果列于表2和表4。比较所有的基线模型，可以发现10-shot MolReGPT明显增强了GPT-3.5-turbo的能力，达到了最佳的整体性能。在MACCS FTS、RDK FTS和Morgan FTS等分子评估指标中，MolReGPT与MolT5-base相比，在Text2Mol指标上取得了15%的大幅提升。考虑分子指纹得分，10-shot MolReGPT与MolT5-base相比也获得了平均18%的改进。此外，MolReGPT还获得了最高的精确匹配分数，有13.9%的例子与ground truth完全一致。值得注意的是，以上所有令人印象深刻的结果都是在没有额外训练或微调的情况下实现的。
图9列出了基于文本的分子生成结果的例子，以比较不同模型之间的性能。从给定的例子中可以看出， MolReGPT能够生成与ground truth更相似的结构。
图9: 不同模型生成的分子的例子（其中SMILES字符串被转换成分子图，以方便更好地展示）。
04 讨论
图10: 给定输入，MolT5和MolReGPT生成分子的对比。
该论文还针对基于定制化文本的分子生成任务做了进一步的探索。如图10所示，例1中的输入强调了结构中的五个苯环和疏水基团。然而MolT5的结果产生了不正确的苯环数量，并且生成的结构含有一些亲水基团。相比之下，MolReGPT则给出了与输入相对应的正确结构。在例2中，MolT5和MolReGPT都生成了正确的苯环数量，而MolReGPT生成了更多的亲水基团，更符合我们给定的输入。
05 结论
这篇文章提出了MolReGPT，一种通用的基于检索的上下文小样本分子学习的提示范式，赋予大语言模型（如ChatGPT）分子发现的能力。MolReGPT利用分子相似性原理从本地数据库中检索分子-分子文本描述对作为上下文学习中的示例，指导大语言模型生成分子的SMILES字符串，从而无需对大语言模型进行微调。
这篇工作的方法专注于分子-文本描述间相互翻译任务，包括分子文本描述生成（Mol2Cap）和基于文本的分子生成（Cap2Mol），并在该任务上对大语言模型的能力进行了评估。实验结果表明，MolReGPT可以使ChatGPT在分子描述生成和分子生成方面分别达到0.560和0.571的Text2Mol分数。从分子理解和基于文本的分子生成角度来看，其性能都超过了MolT5-base这样的微调模型，甚至可以与微调的MolT5-large相媲美。总而言之，MolReGPT提供了一个新颖的、多功能集成的范式，通过上下文学习在分子发现中部署大型语言模型，这大大降低了领域转移的成本，探索了大型语言模型在分子发现中的潜力。
参考文献

[1] Edwards, C., Zhai, C., and Ji, H. Text2mol: Cross-modal molecule retrieval with natural language queries. In Pro- ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 595–607, 2021.

[2] Edwards, C., Lai, T., Ros, K., Honke, G., Cho, K., and Ji, H. Translation between molecules and natural language. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 375–413, Abu Dhabi, United Arab Emirates, December 2022. As- sociation for Computational Linguistics.

[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. At- tention is all you need. Advances in neural information processing systems, 30, 2017.

[4] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551, 2020.

[5] Li, J., Liu, Y., Fan, W., Wei, X. Y., Liu, H., Tang, J., & Li, Q. (2023). Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective. arXiv preprint arXiv:2306.06615.

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。