"); //-->
许多看起来能理解语言并且在一组常见的理解任务中比人类得分更高的人工智能模型,都没有注意到句子中的单词被混淆了,这表明它们根本就不懂语言。问题源于这些自然语言处理(NLP)系统的训练方式,不过这也指出了一种改进方法。
阿拉巴马州奥本大学(Auburn University)和奥多比研究中心(Adobe Research)的研究人员在试图让一个自然语言处理系统对其行为产生解释时发现了这个漏洞,比如为什么它声称不同的句子意味着同一件事。当测试他们的方法时,他们意识到在一个句子中打乱单词对解释没有影响。作为这项工作的领导者,奥本大学的Anh Nguyen说,“这是所有NLP模型的普遍问题。”
该团队研究了几个基于BERT(谷歌开发的语言模型,支撑了包括GPT-3在内的许多最新系统)的最先进的自然语言处理系统。所有这些系统在GLUE(通用语言理解评估)上的得分都高于人类。GLUE是一套用来测试语言理解能力的标准任务,比如发现释义,判断句子是否表达了积极或消极的情绪,以及文字推理。
人咬狗:他们发现,当句子中的单词打乱时,这些系统无法辨别,甚至当新顺序改变了意思时。例如,系统正确地识别出“大麻会导致癌症吗?”和“吸食大麻如何导致您患上肺癌?”属于释义。但他们更确定“你吸烟致癌,大麻如何能给肺?”和“吸大麻能给肺怎么你癌症?”意思也是一样的。系统对那些意义相反的句子——比如“大麻会致癌吗?”和“癌症会导致吸食大麻吗?判定为同样的意思。
唯一一个与词序有关的任务是让模型检查一个句子的语法结构。其他任务下,测试系统75%到90%的答案在单词被打乱时没有变化。
这是怎么了呢?这些模型似乎是从一个句子中挑出几个关键词,而不管它们的顺序是什么。他们不像我们人类一样能理解语言,并且,GLUE——一个非常流行的基准——也不能衡量真正的语言使用。在许多情况下,用于训练模型的任务并不强迫它关心词序或语法。换句话说,GLUE教会了NLP模型跳读。
许多研究人员已经开始使用一套更硬核的测试,称为超级GLUE,但Nguyen怀疑它会有类似的问题。
Yoshua Bengio和他的同事也发现了这个问题,他们发现,在对话中对单词进行重新排序有时并不会改变聊天机器人的反应。Facebook的一个人工智能研究团队在中文上也发现了这种情况。Nguyen的团队表明,这个问题很普遍。
这个问题严重吗?这取决于应用程序。一方面,如果人工智能能像人类一样,在你打错字或说错话时仍然能理解,那将是很有用的。但总的来说,在分析句子的意思时,词序是至关重要的。
如何解决呢?好消息是,解决这个问题可能不是太难。研究人员发现,通过训练模型去做一个词序重要的任务(比如发现语法错误),迫使模型专注于词序,也能让模型在其他任务中表现得更好。这表明,调整训练模型的任务将使它们整体表现得更好。
Nguyen的研究结果再次表明模型往往远达不到人们所认为的能力。他认为,这凸显了让人工智能像人类一样理解和推理是多么困难。Nguyen说,“没人知道怎么做。”
原文标题:
Jumbled-up sentences show that AIs still don’t really understand language
原文链接:
https://www.technologyreview.com/2021/01/12/1016031/jumbled-up-sentences-ai-doesnt-understand-language-nlp-bert-fix/
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。