【NAACL2021】Graph4NLP：图深度学习自然语言处理

数据派THU | 2021-07-04 17:56:23 阅读：358

来源：专知

深度学习已经成为自然语言处理(NLP)研究的主导方法，特别是在大规模语料库中。在自然语言处理任务中，句子通常被认为是一系列标记。因此，流行的深度学习技术如循环神经网络(RNN)和卷积神经网络(CNN)在文本序列建模中得到了广泛的应用。

然而，有大量的自然语言处理问题可以用图结构来最好地表达。例如，序列数据中的结构和语义信息(例如，各种语法分析树(如依赖分析树)和语义分析图(如抽象意义表示图))可以通过合并特定任务的知识来扩充原始序列数据。因此，这些图结构化数据可以对实体标记之间的复杂成对关系进行编码，以学习更多的信息表示。然而，众所周知，深度学习技术对欧几里德数据(如图像)或序列数据(如文本)具有破坏性，但不能立即适用于图结构数据。因此，这一差距推动了对图的深度学习的研究，特别是图神经网络(GNN)的发展。

这种在图的深度学习和自然语言处理的交叉领域的研究浪潮影响了各种自然语言处理任务。应用/开发各种类型的GNN的兴趣激增，并在许多自然语言处理任务中取得了相当大的成功，从分类任务如句子分类、语义角色标注和关系提取，到生成任务如机器翻译、问题生成和摘要。

尽管取得了这些成功，NLP的图深度学习仍然面临许多挑战，包括自动将原始文本序列数据转换为高度图结构的数据，以及有效地建模复杂数据，包括基于图的输入和其他高度结构化的输出数据 (如序列、树、并在节点和边均具有多种类型的图数据。本教程将涵盖在NLP中运用深度学习图技术的相关和有趣的主题，包括NLP的自动图构造、NLP的图表示学习、NLP的高级基于GNN的模型(例如graph2seq、graph2tree和graph2graph)，以及GNN在各种NLP任务中的应用 (例如:机器翻译、自然语言生成、信息提取和语义解析)。此外，还将包括动手演示课程，以帮助观众获得应用GNN解决具有挑战性的NLP问题的实际经验，使用我们最近开发的开源库——Graph4NLP，这是第一个为研究人员和从业者提供的库，用于轻松地使用GNN解决各种NLP任务。

Graph4NLP 239页slides的教程：

地址：https://github.com/graph4ai/graph4nlp

Graph4NLP：图深度学习自然语言处理工具包

来自京东硅谷研发中心的首席科学家吴凌飞博士领导的 Graph4AI 团队开发了首个面向NLP的图深度学习工具包：Graph4NLP: Deep Learning on Graphs for Natural Language Processing 。

目前Graph4NLP的包是建立在DGL基础上，关键模块包含了文本转图结构模块（Graph Construction),、图学习模块 (Graph Representation Learning)、预测模块 (Prediction)、评估模块 (Evaluation) 和损失函数模块 (Loss)。

Graph4NLP由四个不同的层组成：

1、数据层；2、模块层；3、模型层；4、应用层。

图注：Graph4NLP 整体架构

Graph4NLP 计算流如下所示：

Graph4NLP模型和应用

模型

Graph2Seq: 一个通用的端到端神经编码——解码模型，可以映射一个输入图到一个序列token；

Graph2Tree: 一个通用的端到端神经编码——解码模型，可以映射一个输入图到一个树结构

应用

本项目提出了一个复杂的NLP应用集合，并附带了详细的案例：

文本分类：把句子或文档分类为适当的标签；

语义解析：把自然语言翻译成机器可解释的形式意义表示。

神经机器翻译：把源语言中的句子翻译成不同的目标语言。

摘要：生成输入文本的更简短版本，并保留主要含义。

知识图谱补全：预测知识图谱中两个现有实体之间的缺失关系。

数学问题解决：自动解决数学习题，用易懂的语言提供问题的背景信息。

命名实体识别：对输入文本中的实体进行相应类型的标记。

问题生成：根据给定的段落和目标答案（可选）生成有效且流畅的问题。

论文链接：

https://www.aclweb.org/anthology/2021.naacl-tutorials.3.pdf

Graph4NLP文献综述：

https://github.com/graph4ai/graph4nlp_literature

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。