达摩院SPACE大模型：知识注入与知识利用（2）

数据派THU | 2022-11-20 18:24:59 阅读：735

3. 准备工作

将对话策略作为知识注入到预训练对话模型，需要在数据和知识层面做一些准备工作。如上图所示，将英文开源数据集进行综合，形成英文任务型对话 DA 体系——UniDA，共 5 大类，20 个标签，100 万份有标注的数据，3500 万的无标注数据，如下图所示：

整理好以上知识之后，如何定义预训练的任务？如上图所示，选用的是显式建模对话策略，即给定对话历史，预测下一轮系统端的 DA，即做成分类任务，预测下一轮的 DA 标签。

4. 半监督方案设计

有了数据，有了知识，有了显式建模方式，就可以进行半监督的学习。如上图所示，半监督学习的方案主要由以上三种方式：判别式方法、生成式方法、对比学习方法等。

由于判别式方法和生成式方法比较常规，所以先对以上两种方法进行探索。结果表明以上两种方式做出来的效果并不好。如上图所示，针对判别式的方法，对有标数据，可以新加一个损失函数 LDA ，但是对于无标数据，无法添加损失函数。针对生成式的方法，也是同样的道理。即 Self-Predict 和 VAE 的方法，对于有标数据建模是不错的，但是对于无标数据的建模效果不好，因为基于⾃预测的⽅法通过模型参数共享，实现弱约束，基于 VAE 的⽅法通过重参数化 Trick 进⾏梯度回传，但隐变量不稳定。

基于上述问题，我们希望通过对比学习，进行半监督学习的探索。针对有标数据可以轻松地加上 LDA 损失函数，而针对无标数据如何做，这里引入一致性损失函数。如上图，我们对同一个样本，过两遍图右边的模型结构，每一遍都有 Dropout 进行随机处理，所以，两次的样本编码不一致，但是，相差不会很远，距离应该很近。整体思想如下：

基于少量的有标数据和大量的无标数据，通过有标数据学习一个支持的概率分布，对于无标数据，进行两次学习，每次过模型都生成一个向量，这两次生成的向量的距离，应该是很近的。通过这种对比学习的半监督学习方式，很好地解决了半监督学习有标数据和无标数据结合的问题。

模型的效果非常好，在 MultiWOZ2.0 和 MultiWOZ2.1 实现了 5.3% 和 5.5% 的提升。以前的模型提升只能在 1% 或者 2% 的提升，而 SPACE 带来了 5% 以上的提升。

拆开细看，以 MultiWOZ2.0 为例，模型的提升主要体现在 Success 和 BLEU 等方面，因为对话策略对于 Success 对话完成率和 BLEU 对话回复生成至关重要，这说明通过半监督，模型很好地学会了这类知识。

除了对全量数据的测试，也在少量数据进行了测试，如上图所示，分别在 5%、10%、20%、50% 等数据量上进行了对比实验，可以发现 SPACE 模型在不同数据量上也带来了显著的提升。

以上主要讲解我们提出的知识注入的方式，半监督训练 SPACE 模型，在预训练上面显著提高预训练模型的效果。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。