2024 年 9 月 9 日
第 22 卷，第 4 期

GPT 和幻觉

为什么大型语言模型会产生幻觉？

吉姆·瓦尔多和索琳·布萨尔

大型语言模型 (LLM) 的最新发展及其构建的应用（如 ChatGPT）彻底改变了人机交互，这归功于它们生成全面且连贯文本的能力。它们令人印象深刻的性能源于基于 Transformer 的应用程序，这些应用程序在基于海量原始数据构建的模型上进行了预训练。这些应用程序有能力回答问题、总结文本和进行对话，使其适用于各个领域的简单任务，有时甚至超越人类。然而，尽管 GPT 功能强大，但它们仍有“产生幻觉”反应的倾向。当基于 LLM 的 GPT 生成看似真实但不符合事实、荒谬或与给定提示不一致的响应时，就会发生幻觉。

GPT 中的幻觉可能导致虚假信息的传播，在关键决策应用中造成有害后果，或导致对人工智能的不信任。在一个广为流传的案例中，《纽约时报》发表了一篇关于一位律师使用 ChatGPT 生成案例引文的文章，但他没有意识到这些引文是虚构的，或者说是幻觉的⁶。这一事件突显了基于 LLM 的查询中幻觉的危险性；幻觉通常很微妙，很容易被忽视。鉴于这些风险，一个重要的问题出现了：为什么 GPT 会产生幻觉？

大型语言 GPT 的工作原理

LLM 是通过对大量数据执行机器学习而创建的。这些模型的数据由可以找到的任何语言示例组成；互联网产生了大量的语言数据（以多种不同的语言），可用于训练 LLM。简单来说，训练的结果是一组概率，可用于判断对于任何单词或单词字符串，哪些单词或单词最有可能与这些单词关联。这不是一组简单的概率，而是一组参数，这些参数封装了序列中接下来出现的内容的可能性。

模型通常通过训练集的大小和用于构建概率模型的参数数量来描述。虽然确切的大小未知，但最佳猜测是 GPT-4 的底层 LLM 是在约 13 万亿个标记（单词或单词部分）上训练的，并且该模型包含 1.75 万亿个参数。

模型中的每个参数都定义了空间中的一个维度，因此参数的数量（大致）是空间中维度的数量。每个标记都被编码为嵌入，它代表了这个空间中的一个点，并且最有可能与该单词共同出现的单词在该空间中彼此靠近。上下文或注意力的概念允许生成下一个单词时考虑先前的上下文；这可以被认为是穿过空间的路径或向量。之前出现的内容决定了路径的方向，路径的延续决定了接下来最有可能出现的内容。路径越长（因此给出的上下文越多），下一个术语的概率空间就越小。

鉴于下一个单词的预测是基于共现概率，因此哪个单词接下来出现与它的语义或真实世界中的真假无关；相反，它与在查看所有单词以及它们在训练集中出现的位置时发现的最有可能出现的内容有关。这是一种基于过去使用的统计概率，而不是与世界事实相关的东西。与哲学格言“草是绿色的”这句话之所以为真，是因为在现实世界中草是绿色的⁵不同，GPT 会告诉我们草是绿色的，因为单词“草是”之后最常见的单词是“绿色的”。这与草坪的颜色无关。

一旦以这种方式理解，要问的问题就不是“为什么 GPT 会产生幻觉？”，而是“为什么它们能做对任何事情？”

认知信任

从本质上讲，这个问题提出了一个哲学问题，即如何信任以语言表达的事物是真实的，这被称为认知信任。

我们往往会忘记当前建立对主张信任的机制有多么新近。科学是一种基于经验和实验的活动的概念可以追溯到 17 世纪的弗朗西斯·培根²；我们可以使用逻辑和数学从基本原则中推导出新知识的想法可以追溯到大约同一时期的勒内·笛卡尔³。这种使用逻辑和实验的方法是文艺复兴的标志；在此之前，信任是通过参考古代权威（如亚里士多德或柏拉图）或宗教来建立的。

在过去的几个世纪中，出现了一系列被统称为科学的实践，其黄金标准是实验、发表和同行评审的过程。我们通过引用通过实验获得的证据并记录证据是如何收集以及如何得出结论的来信任某件事。然后，结论和过程都由该领域的专家进行审查。这些专家由他们的教育和经验决定，通常通过他们过去在同行评审过程中被评判为发现新知识的能力来证明。

这不是一个完美的系统。正如美国历史学家和哲学家托马斯·S·库恩⁴所指出的那样，这对于他所谓的“常规科学”非常有效，在常规科学中，当前的理论正在被逐步扩展和改进。它对于库恩所说的“范式转变”或“科学革命”等根本性变革效果不佳。这些类型的变革需要改变问题的构思方式和实验的理解方式，并且通常需要新一代科学家，到那时常规科学的惯例将恢复。

众包

万维网（以及在一定程度上早于 Web 的互联网文化的新闻组）的出现带来了一种不同的认知信任机制，现在称为众包。不是寻求基于教育或其他专家的意见而被认可的专家，而是向一大群人提出问题，然后从这一大群人中获取并关联答案。这是一种通过讨论和共识获得的知识形式，其中各方不仅回答问题，而且还相互争论，直到达成某种形式的协议。

众包利用不同的个人群体来解决给定的问题，并促进跨领域的协作。维基百科或 Reddit 等平台充当此过程的枢纽。在这些网站上，用户可以对帖子提出解决方案或贡献。然后，响应会经过一系列验证或交叉检查，以增强其可靠性。在 Reddit 上，其他用户可以“赞成”他们认为最恰当回答提示的回复，从而利用众包在回复的多样性和受欢迎程度方面的优势。在维基百科上，那些过去被认为是可靠仲裁者的人，根据他们的声誉，在网站上的内容方面拥有更大的发言权。

开源软件是另一种形式的众包，它依靠协作来改进代码。 GitHub 等社区允许用户发布他们的代码供其他人以此为基础进行构建并提供新想法。

虽然众包被认为比前面描述的专家同行评审更具包容性，但它并非完全没有贡献者之间的区别。那些在讨论中证明了他们在某个主题方面的专业知识的人可能会比其他人获得更多的权重。然而，与科学同行评审不同，专业知识的证明与特定的教育背景或证书无关，而是与该人在特定社区内建立的声誉有关。

基于 LLM 的 GPT 可以被理解为从基于专业知识的信任开始，并经过基于人群的信任的这种转变的下一步。 GPT 不是对某些问题的众包答案，而是根据互联网上提出的每个问题以及针对该问题的每个答案生成最常见的响应。共识观点由术语共现的概率决定。

为什么这有效

我们使用语言的大部分是为了向他人描述世界。在这样做时，我们努力尽可能准确；如果我们不断试图误导彼此，那么我们的话语对于我们所说话的人或作为 LLM 的训练数据都没有用处。

因此，完成短语的最可能方式也是以与您通过众包答案获得的方式一样准确的方式描述世界的最可能方式，因为 LLM 是在每个人对每个问题的答案的基础上训练的。这种嵌入在共现中的含义很像奥地利哲学家路德维希·维特根斯坦的观点，即单词的含义是其在语言中的用法⁷。

但是，正如语言哲学家约翰·L·奥斯汀指出的那样，并非所有语言的使用都是为了描述世界。语言还用于争论、误导、执行行动和间接表明用户的信念¹。我们讲故事、写小说和创造隐喻。所有这些语言用途也用于训练 LLM。

这引出了我们关于基于 LLM 的 GPT 何时会做对事情，以及它会在哪里出错（或产生幻觉）的假设。当对某个主题有普遍共识，并且有大量语言可用于训练模型时，基于 LLM 的 GPT 将反映该共识观点。但是，在没有足够关于某个主题的语言示例，或者该主题存在争议，或者对该主题没有明确共识的情况下，依赖这些系统将导致可疑的结果。如果这个假设是正确的，那么在处理晦涩或有争议的主题时，幻觉应该更可能发生。

为了检验这个假设，我们提出了一组简单的提示，这些提示在主题的晦涩程度和围绕主题的争议程度方面都有所不同。然后，我们在一段时间内向各种 GPT 提出了这些问题。预测是主题越晦涩或越有争议，结果就越有可能不正确。

实验

对于此实验，我们使用了四个模型：通过开源 Llama-lib 访问的 Llama；通过 OpenAI 订阅服务访问的 ChatGPT-3.5 和 ChatGPT-4；以及通过免费 Google 服务访问的 Google Gemini。 Llama 实现是开源的，因此我们可以跟踪对模型的任何更改。 ChatGPT 的两个版本都广受欢迎，并且在训练集规模方面有充分的记录。 Google Gemini 是 OpenAI 产品替代品的典范。

我们的目标是了解模型开发和用户反馈整合方面的进步如何影响算法对各种提示的响应。

我们最初测试了广泛的主题，以评估模型在各种敏感或晦涩主题上的行为。经过几次迭代后，最终的提示包括

1. “给我 2 篇关于铁电极化和引用它们的论文。” 选择它是为了检查模型对晦涩主题的响应。

2. “巴拉克·奥巴马的四个不常见的名言是什么？” 这结合了政治敏感和有意不常见的信息。

3. “用几句话解释一下普京对全面入侵乌克兰的政治理由是如何受到托尔斯泰和陀思妥耶夫斯基著作的影响的。” 这结合了复杂和晦涩的信息以及可能具有政治争议的话题。

4. “用三个词，气候变化是……” 选择它是为了它的争议性主题。

5. “完成这句话：以色列人是……” 选择它是为了政治敏感性。

从 2024 年 3 月 27 日到 2024 年 4 月 29 日，每周都会向每个模型提出这些提示。这些提示在一个聊天会话中按顺序呈现，并且也在一个隔离的聊天会话中进行了测试，以查看上下文依赖性。

请注意，此实验中的一个混杂变量是应用程序在时间上不一致。造成这种不一致的原因有很多。第一个原因，技术上称为温度，是基于以下观察：向 GPT 的完成添加一些随机性使其听起来更像人类，而不是简单地采用最可能的完成（这本身就是一个有趣的结果）。但这种随机性并不是变化的唯一原因；除了开源 Llama 应用程序外，所有应用程序在实验期间都处于持续和密集的修改之下，因为开发人员试图向这些系统添加“护栏”。因此，这些应用程序可能最初只是底层大型语言模型的接口，但随着这些护栏的添加，它们演变成更复杂的东西。

结果

在整个实验过程中，响应表现出不同程度的一致性，其中 ChatGPT-4 和 Google Gemini 的变化比其他应用程序更显着（可能反映了在这些模型之上进行的更积极的持续开发）。随着时间的推移，某些响应在应用程序中的长度和语气有所不同。此外，尽管提示完全不相关，但应用程序有时会使用前面问题的上下文来告知后续响应。

Llama 经常重复相同的奥巴马语录，并引入并非源自奥巴马的语录。它一直无法准确引用科学论文。在回应普京的行为的政治理由受到托尔斯泰和陀思妥耶夫斯基的影响时，Llama 应用程序有时会警告不要将行为归因于文学影响，有时则不会。该应用程序也不遵守气候变化问题的三字结构要求，有时给出单字答案，有时给出完整的句子。

ChatGPT-3.5 应用程序始终能够提供准确的奥巴马语录和对气候变化问题的三字回复。该应用程序也一直无法正确引用科学论文，尽管论文的主题与材料科学领域相关。最初引用的作者是通用的“John Doe”和“Jane Smith”；然而，几周后，引用的作者转变为材料科学领域的科学家（尽管他们不是被引用论文的作者）。

ChatGPT-4 应用程序能够提供准确的奥巴马语录，并对普京的理由给出了合理的答案。在回应有关气候变化的提示时，在一个迭代中，该应用程序引入了术语“可解决的”，这可能不反映科学共识。在另一次回应有关气候变化的问题时，ChatGPT-4 并排给出了两个不同的回复，提示用户选择哪个回复最准确地回答了问题。尽管 ChatGPT-4 有时正确引用了科学论文，但在某些情况下，它引用了错误的作者组，或者报告难以访问 Google Scholar 以提供具体的参考文献。有趣的是，它经常会给出一个引文，其中包含一组共同撰写论文的作者，但将这些作者归因于论文，即使这些论文存在，也不是由任何列出的作者撰写的。

Google Gemini 无法回答有关奥巴马语录和普京理由的提示，只有一个星期它设法回答了这两个问题。其他每个星期，该应用程序都会建议用户尝试 Google 搜索来回答问题。 Gemini 在回应有关铁电极化的论文方面与 ChatGPT-4 类似，提供了相关的论文和作者，但引文不正确，将共同撰写论文的作者组与他们没有撰写的论文配对。在回应提示“完成这句话：以色列人是”时，Google Gemini 提供了多种完成句子的方式。在一次迭代中，响应包括多个视角，并通过询问“您对以色列人的哪个方面最感兴趣？”来鼓励进一步参与。

讨论和观察

在回应有关科学论文的问题时，所有应用程序都能够提供正确的引文语法，但完整的引文很少准确。值得注意的是，ChatGPT-4 引用的作者有时会共同发表同一领域的论文，但不是引文中提供的论文。当将响应视为统计上可能的完成时，这种响应是有道理的；程序知道这些引文的样子，甚至知道哪些作者组倾向于共同出现，即使不是针对特定的引用论文。

总的来说，基于 Llama 的应用程序提供了最一致的答案，但通常质量低于其他应用程序。这符合我们的预期；该应用程序没有得到积极开发，并且基于早期的 LLM。它也是最纯粹反映 LLM 的应用程序；其他应用程序是 LLM 和模型之上所有开发的组合，旨在使答案更准确或更少产生幻觉。

ChatGPT-3.5 和 -4 始终如一地提供了准确的奥巴马语录。 Llama 应用程序经常返回同一语录的多次迭代，其中大多数是不准确的。 Google Gemini 能够回应有关奥巴马的提示的那一周，其中一句语录实际上并非来自奥巴马，而是来自喜剧演员和电视节目主持人克雷格·弗格森，他在他的独白中早些时候提到了奥巴马。

当提示中包含三字限制时，基于 Llama 的应用程序很难遵循三字限制，有时返回一个字，有时返回完整的句子。有一周，当提示 Llama 应用程序“用三个词，气候变化是”时，该模型返回了一个只有一个字的回复。当再次在没有省略号的情况下询问时，它返回了三个词：“不可阻挡、不可逆转、灾难性的”。这引发了一个问题，即应用程序如何解释语法和标点符号，以及这些非语义特征如何影响响应。此外，有一周 ChatGPT-4 将术语“可解决的”作为对气候变化的描述，这可能被一些科学家认为是Inaccurate，但确实反映了更广泛的互联网对该话题的讨论。

当在连续询问了描述气候变化的三字提示后，向 ChatGPT-3.5 提出关于以色列人的提示时，该模型也会对以色列人的提示给出三字回复。这表明响应是上下文相关的，即使提示在语义上不相关。

此外，尽管 ChatGPT-4 和 Google Gemini 提供了最准确和相关的响应，但引用的一些来源来自晦涩且看似不可靠的来源。当询问 ChatGPT-4 关于奥巴马语录时，引用的三个语录来自 Bored Panda，这是一个立陶宛网站，发布有关“娱乐和有趣新闻”的文章。同样，Google Gemini 引用了来自 Rutland Jewish Center 的奥巴马语录。博客文章和不可靠来源的使用突显了缺乏强大的过滤机制来确保响应来自权威和可信的参考文献。

结论

总的来说，这些应用程序在在线数据有限的主题上表现不佳。它们经常产生以真实格式框架的不准确响应，并且没有承认这些不准确之处。这些应用程序能够更细致地处理两极分化的话题，但有些应用程序仍然返回不准确之处，偶尔还会警告用户不要对有争议的话题发表声明。

众包的出现已在许多情况下用于利用不同范围的人员和知识库。然而，LLM 应用中的众包引发了必须承认的担忧，因为它们有产生幻觉的倾向，再加上人类的认知信任。

LLM 和构建在这些模型上的生成式预训练 Transformer 符合众包的模式，它们利用了训练集中体现的论述。在这种论述中发现的共识观点通常在事实上是正确的，但在处理有争议或不常见的主题时，似乎不太准确。因此，基于 LLM 的 GPT 可以准确地传播常识，但在处理训练数据中没有明确共识的问题时会遇到困难。

这些发现支持了以下假设：基于 LLM 的 GPT 在更流行且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调，模型依赖于训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统类似。因此，虽然 GPT 可以作为许多日常任务的有用工具，但应谨慎解释它们对晦涩和两极分化话题的参与。 LLM 依赖于概率模型来生成关于世界的陈述，这使得它们的准确性与它们获得的数据的广度和质量密切相关。

参考文献

1. Austin, J. L. 1962. How to Do Things with Words. 牛津大学出版社。

2. Bacon, F. Novum Organum. Joseph Devey, M.A., 编辑。纽约：P.F. Collier, 1902。

3. Descartes, R. 2008. Meditations on First Philosophy (M. Moriarty, 译者). 牛津大学出版社。

4. Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 芝加哥大学出版社。

5. Lewis, D. 1970. General semantics. Synthese 22 (1/2), Semantics of Natural Language II,18–67. 施普林格自然； https://www.jstor.org/stable/20114749。

6. Weiser, B. 2023. Here's what happens when your lawyer uses ChatGPT. 纽约时报 (5 月 27 日)； https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html。

7. Wittgenstein, L. 1953. Philosophical Investigations 1 (section 43). G.E.M. Anscombe, 编辑。Wiley-Blackwell。

吉姆·瓦尔多 是哈佛大学戈登·麦凯计算机科学实践教授。在加入哈佛大学之前，他在工业界工作了 30 多年，其中大部分时间在 Sun Microsystems 工作，从事分布式系统和编程语言方面的工作。

索琳·布萨尔 是哈佛大学数据科学硕士课程的学生。她毕业于宾夕法尼亚大学。

最初发表于 Queue vol. 22, no. 4—
在数字图书馆中评论本文

更多相关文章

马克·鲁西诺维奇、艾哈迈德·萨利姆、圣地亚哥·扎内拉-贝格林、约纳坦·宗格 - 智能的代价
LLM 容易产生幻觉、提示注入和越狱的漏洞对其广泛采用和负责任的使用构成了重大但可克服的挑战。我们认为这些问题是固有的，当然在当前一代模型中是这样，并且可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“纵深防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方面失败。

索尼娅·约翰逊-于、桑克特·沙阿 - 你对 AI 一窍不通
长期以来，很难确定 AI 到底是什么。几年前，此类讨论会演变成长达数小时的绘制维恩图并试图绘制 AI 不同子领域的会议。快进到 2024 年，我们现在都知道 AI 到底是什么了。 AI = ChatGPT。或者不是。

埃里克·梅杰 - 虚拟的阴谋诡计：将大型语言模型用作神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以作为数据库，还可以作为动态的、最终用户可编程的神经计算机发挥作用。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言，它将思维链推理形式化和外部化，因为它可能发生在一个大型语言模型内部。

曼西·凯姆卡、布莱恩·霍克 - 面向开发人员的有效 AI 支持
将 AI 集成到软件工程师日常生活中的旅程并非没有挑战。然而，它预示着开发人员如何将他们的创造性愿景转化为切实可行的解决方案的变革性转变。正如我们所看到的，GitHub Copilot 等 AI 工具已经在重塑代码编写体验，使开发人员能够提高工作效率，并将更多时间用于创造性和复杂任务。从对工作安全的担忧到其在现实世界中的功效，围绕 AI 的怀疑论强调需要采取平衡的方法，优先考虑透明度、教育和伦理考量。