HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

2023-10-31

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

尽管现在大模型拥有前所未有的能力，其依然会生成出一些幻觉文本，即生成出存在冲突或无法通过已有知识来验证的内容。
本文探索：what types of content and to which extent LLMs tend to hallucinate？
本文提出HalEval Benchmark，包括35000个幻觉/正常的样本，用于分析和评估大模型。其包含5000个通用的用户对话查询问题以及30000个任务相关的问题（包括QA、知识对话和文本摘要）。

对于用户查询，使用52k个Alpaca指令数据集。设计一个instruction，让大模型采样生成3个回复，并保留低相似的回复（尽可能多样化一点），最后让标注人员标注是否是幻觉，并标注存在幻觉的区间文本。样例如下图所示：

对于task-specific数据，设计了自动构建幻觉数据的方法。基于已有的数据集，设计一个可以让大模型产生幻觉结果的instruction，并让模型生成幻觉回答

we design task-specific instructions for ChatGPT to generate hallucinated samples in two methods, i.e., one-pass and conversational.

HalEval Benchmark

构建幻觉数据的方法图：

Diverse Hallucination Sampling

One-pass Instruction：首先构建一个用于生成幻觉数据的指令，如下图所示：

包含一个PUA意图描述（蓝色），一个任务指令（红色，让模型生成幻觉的文本）和存在幻觉的样例（绿色）。
通过这个指令，分别对HotpotQA、OpenDialKG和CNN/Daily Mail采用10000个训练样本，并通过指令的方式生成对应的幻觉输出。

High-quality Hallucination Filtering

同样也是构造一个指令，这个指令用于从若干个幻觉的回复中选择一个最为plausible并且与真实结果closest的幻觉。相当于挑选一个难例。

Human Annotation

邀请标注人员来判断ChatGPT生成的幻觉数据中是否存在幻觉。通过选择Alpaca对应的52k个query，让ChatGPT生成3个回复，并使用BERTScore来计算两两之间相似度，最后筛选得到5000个彼此相似度很低的query。
然后让标注人员对着5000个样本进行标注，判断其是否存在幻觉，如果存在则标注出对应的区间。幻觉类型包括：unverifiable, non-factual, and irrelevant。
样例如下所示：

Benchmark Analysis and Usage

最终整理了30000个任务相关的幻觉数据，5000个对话幻觉数据。
基于这个Benchmark，研究者可以做如下一些事情：

分析大模型会产生什么类型的幻觉；
验证大模型识别幻觉的能力。例如给定一个query和answer，让大模型判断这个answer是否存在幻觉；

To use our benchmark, users can run the code in our project repository to conduct the corresponding evaluation and analysis. Users can use our provided instructions on their own datasets to evaluate LLMs on hallucinations.

实验

实验模型：Text-davinci-002、Text-davinci-003、gpt3.5-turbo
实验设置：最大长度：256、frequency penalty：0、top-p：1.0、温度系数：1.0

幻觉识别性能

让大模型来判断给定的样本的output有没有幻觉。
对三种任务设计幻觉识别的指令：

幻觉识别结果如下所示：

可知大模型在一些事实任务上幻觉识别任务上依然很差。同时也发现大模型很难利用相关的知识来识别事实幻觉问题。

提升策略

（1）Knowledge Retrieval
添加知识是可以提升大模型对事实幻觉的识别能力的
Therefore, equipping LLMs with ex- ternal knowledge can largely enhance their abilities to recognize hallucinated and texts.
（2）CoT Reasoning
除了让大模型给出是否幻觉的结论外，还需要给出理由。可发现体系爱你不太明显。
（3）Sample Contrast
实验结果看几乎没用，不用去了解这个方法了。

Case Study

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)