PromptBench:大型语言模型的对抗性基准测试

数据派THU | 2023-07-12 21:46:01 阅读：243

PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步，随着这些模型在各种应用中越来越普遍，这个主题也变得越来越重要。

研究及其方法论

PromptBench采用多种对抗性文本攻击，研究人员生成了4000多个对抗性提示，然后通过8个任务和13个数据集对其进行评估。这种全面的方法确保了潜在漏洞的广泛覆盖，并提供了对LLM性能的可靠评估。

研究结果及影响

这项研究的结果表明，当代LLM很容易受到对抗性提示的影响。这个漏洞是一个需要解决的关键问题，以确保llm在实际应用程序中的可靠性和健壮性。作为数据科学家，我们必须意识到这些漏洞，并努力开发能够抵御此类对抗性攻击的模型。
论文还提供了快速减轻这些漏洞的建议。这些建议对于任何使用大模型的人来说都是非常宝贵的，并且可以指导开发更健壮的模型。

开源代码

研究人员已经公开了研究中使用的代码、提示和方法。我们必须继续调查，在它们研究的基础上进行更深入的研究，共同努力推进模型的改进，已经包括的模型如下：

google/flan-t5-large
databricks/dolly-v1–6b
llama-13b
vicuna-13
cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
google/flan-ul2
chatgpt

论文和研究地址：https://arxiv.org/pdf/2306.04528.pdf
https://github.com/microsoft/promptbench

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。