2023年6月27日
第21卷，第3期

智能的回声

文本解释和大型语言模型

阿尔瓦罗·维德拉

重要的不是人们实际上知道什么，而是人们认为每个人都知道什么，并因此被视为共同背景。
— 帕特里齐亚·维奥利

在过去几个月中，人工智能系统的日益普及引人注目。虽然之前，大型语言模型（LLM）还仅限于人工智能实验室的好奇之物或研究论文的谈资，但现在公司已在公共领域部署了这些模型，以各种聊天式应用程序的形式将其置于公众舆论的前沿和中心。

在许多情况下，这些人工智能驱动的应用程序的用户现在会看到一个易于使用且友好的界面，允许人们向 LLM 发送提示并获得回复。与过去的尝试相比，这些最新模型生成的文本具有令人印象深刻的质量。在许多情况下，几乎不可能分辨结果是由人类还是人工智能编写的。这已导致科技界和公众普遍猜测人工智能的可能用途——从生成诗歌、小说和餐厅推荐，甚至从文本语料库中提取问题和答案。

考虑到这一切，这就提出了一个问题：LLM 是如何工作的？

LLM 可以作为通用的“可能性机器”发挥作用。它将考虑用户发送的一些输入——提示——并将生成最有可能从所述输入中得出的文本。（要深入了解 LLM 如何工作的技术方面，请参阅 Stephen Wolfram 的“ChatGPT 在做什么……以及它为什么有效？”¹⁹）

正如 Emily Bender 等人在论文“随机鹦鹉的危险”¹ 中所解释的那样，由于 LLM 仅使用符号进行训练，因此它不可能具有理解的概念。意义超越了词语本身及其句法排列。意义是共同的，由语言使用者¹⁶产生和约定——LLM 无法访问的东西。

在 2017 年出版的《我们大脑中的语言》一书中，安吉拉·弗里德里希解释说

“[...]对于每个词，都有两种类型的语义表示：一种是语言语义表示，另一种是概念语义表示。”¹⁰

她接着解释了概念语义表示与欠明确的语言语义表示相比的丰富性。例如，以下句子：他摘了一朵玫瑰。对玫瑰的语言表示——某种类型的花——足以在语言层面上处理这个句子。然而，在概念语义层面上，人脑可以将玫瑰这个词与它的香气、情人节餐厅餐桌上的中心装饰玫瑰，或者小时候试图从花园里摘一朵玫瑰时，不小心被刺扎到的疼痛感联系起来。显然，还有第二层含义超越了将单词与字典匹配。

虽然现代应用程序以前需要引起注意，但现在可以说 LLM 需要解释。当人们接触到信息时，往往会尝试赋予其某种意义。随机鹦鹉的作者提出了这个问题

“[...]人类对话者倾向于在没有意义的地方赋予意义，这可能会误导 NLP [自然语言处理] 研究人员和公众，将合成文本视为有意义的。”¹

我们在这里想要理解的是，人类对话者在哪里将意义赋予合成文本。这是如何发生的？让我们回应文学理论家特里·伊格尔顿提出的问题：阅读行为涉及什么？⁵

关于狗和自动扶梯

在他的著作《文学理论导论》中，伊格尔顿提出了以下情况：想象一下，您在伦敦地铁系统中看到一个标志，上面写着狗必须在自动扶梯上抱着。虽然这句话听起来很简单，但伊格尔顿对此提出了以下问题

• 这是否意味着你必须在自动扶梯上抱着狗？

• 除非你找到一只流浪狗抱着，否则你会被禁止使用自动扶梯吗？

• “抱”是否应该被隐喻地理解为帮助狗度过一生？

• 你怎么知道这不是装饰品？

此外，您还需要理解关于该标志的以下内容

• 该标志是由某个权威机构放置在那里的。

• “自动扶梯”指的是这个自动扶梯，而不是巴拉圭的某个自动扶梯。

• “必须”意味着“现在必须”。

这个例子说明了一个简单的句子如何可以有多种解释。人类理解多种代码的存在，以便对标志进行正确的解读：如果你带狗去伦敦地铁，在使用自动扶梯时请抱着它。

这就引出了翁贝托·埃科在他的著作《解释的界限》⁸中描述的两个层次的解释的想法。（由于本文借鉴了埃科的作品，因此其中找到的关键术语都用斜体表示。）

在第一个层次上，存在语义解释，这是读者在阅读文本的线性表现时，用意义填充文本的过程。在第二个层次上，存在批判性解释。在这里，目标是从元语言的角度描述文本在其读者中产生某种反应的原因。

让我们来看看读者用来向文本中插入意义的一些代码。（有关完整的详细讨论，请参阅《读者的角色》，导言，第 0.6 节，话语结构。⁶）

LLM 读者的角色

在《读者的角色》^6,9中，埃科提出了一个框架，解释了读者在将文本表达转化为内容时使用的一系列代码。这些代码建立在文本本身之上。英语及其字典和句法规则只是代码的一个例子。交通信号灯及其红色、黄色和绿色灯光是另一种代码，用于表示谁在十字路口拥有先行权。一本书的布局——在页面顶部有章节标题，文本分为段落，底部有脚注，顶部或底部有页码——也是人类已经学会的代码，因此他们知道如何阅读一本书。读者不一定在每翻一页时都阅读章节标题，尽管它出现在每个奇数页的顶部，因为他们理解一本书的布局和排版所呈现的代码。

当他们看到诸如“很久以前，有一位名叫白雪公主的年轻公主。她非常漂亮”之类的文本时，根据埃科的说法，读者首先使用基本字典来检测单词最基本的属性。例如，由于白雪公主是公主，她可能是一个女人。女人激活了诸如人类、拥有某些身体部位等的概念。在这个阶段，读者不知道在继续阅读文本时，哪些属性必须被实际化——也就是说，哪些属性与文本的内容相关。知道人体摄入某种药剂后会生重病是否重要？

然后是共指规则。在白雪公主e的例子中，读者可以决定第二句话中提到的她指的是第一句话中的公主。同样，这些指令都没有在文本中明确说明；这些联系是由读者建立的。

下一组代码与语境和情境选择有关。当人们理解初始示例中的自动扶梯指的是当前地铁站的自动扶梯时，正如埃科所说，他们正在进行情境选择，将话语行为与超语言环境联系起来。同样的标志挂在卧室里，含义完全不同。

通过语境选择，读者应该从对每个单词的基本字典理解转变为百科全书式的理解。虽然公主这个词可能出现在许多语境中，但读者应该理解，在儿童故事中，很多与公主相关的信息与故事无关，除非作者明确说明。现实世界中的公主可能是君主制的一部分，具有所有的含义，而童话故事中的公主则不是。更重要的是，百科全书将解释从字典等代码提供的匹配规则转变为“可能的推论系统”，这引入了解释的自由。¹⁶

由于读者自己的百科全书式的能力，他们可能知道公主可能是什么，就概念的整体意义而言，但这不一定是文本所需要的。文本中未提及的所有内容都作为一种可能性保留下来，这种可能性可能会在以后实现，或者很可能保持原样。

如前所述，公主可能会激活女人的概念，因此是人类。虽然文本和作者都没有告诉读者，作为人类或公主的哪些属性与故事的其余部分相关——无论是拥有器官还是以特定的方式穿着——但由于百科全书式的知识，这些属性从您阅读它们的那一刻起就保持潜在状态，并且一旦童话故事中的公主中毒，它们可能会变得相关。为什么毒药会影响虚构的公主？因为虚构世界是真实世界的寄生；如果备选属性没有明确说明，那么您就假设真实世界的属性（即，毒药会伤害公主）。⁷

现在，您可能会问：为什么上一段提到了童话故事？在白雪公主的例子中，文本中没有任何地方明确谈到儿童故事。这就引出了下一个代码：修辞和文体超编码。

在这种情况下，“很久以前”是一种修辞手法，它告诉读者期望一个与现实世界无关的虚构事件叙述，并且这个故事很可能针对儿童，因为那是童话故事的文学惯例。日常生活中许多此类表达方式有助于人们将文本的其余部分置于语境中。想想当有人在演讲开始时对一群人说“女士们先生们”时，无论人群中是否有女士们先生们，或者演讲者是否认为他们是。此类表达的含义取自一种将修辞手法作为一个整体来解释的代码，而不是逐字逐句地解释。

另一种文学惯例是，当读者理解许多故事中的我不一定是这本书的经验作者时。当作者豪尔赫·路易斯·博尔赫斯以以下开头开始短篇小说《博尔赫斯与我》时

“我对富内斯的第一个回忆非常清晰，我看到他在黄昏时分，大约在 84 年 3 月或 2 月的某个时候。那一年，我父亲带我去弗赖本托斯度过夏天。”³

读者知道，或应该知道，我不是指博尔赫斯，即使博尔赫斯和他的父亲一起去乌拉圭的弗赖本托斯旅行并非不可能，弗赖本托斯是一个几乎与博尔赫斯自己的布宜诺斯艾利斯隔河相望的城市。（博尔赫斯出生于 1899 年，因此他显然也不可能是那个故事中的我。他的短文“博尔赫斯与我”说明了作者与文本分离的想法，并强调了作者的声音是读者在任何虚构书籍中遇到的第一个角色。）此外，由于文学惯例，读者理解文本中的他指的是富内斯，因为通常故事讲述的是它命名的角色。⁶ 您可以看到读者为了使文本发挥作用做了大量工作。让我们看看最后一个代码，互文性。

文学评论家朱莉娅·克里斯蒂娃说，“任何文本都是引文的马赛克；任何文本都是对另一个文本的吸收和转化”，将互文性的概念引入了欧洲符号学。¹² 埃科说，通过执行互文框架的推论，读者引入其他文本来实际化他们正在阅读的文本。例如，在《堂吉诃德》中，作者米格尔·德·塞万提斯期望他的读者了解他那个时代的骑士传奇故事，以便他们理解不太可能的英雄阿隆索·吉哈诺的冒险经历的讽刺意味。

有时作者不像塞万提斯那样明确，但他们会抓住原型，如克里斯托弗·布克在他的著作《七种基本情节》² 中描述的“从贫困到富裕”、“航行和归来”、“探寻”等；有时，他们希望你读过每一本书，甚至是那些不存在的书，就像博尔赫斯的情况一样。文本是文本之间的对话。（虽然文学理论通常关注书籍，但接触不同的平台会填补这种互文知识，今天比以往任何时候都多——从社交媒体及其模因，到流媒体电视节目，再到更传统的媒体，如报纸。）

在不详尽的情况下，这些是读者每次面临解释文本的任务时都会采取的一些代码；难怪对于人类来说，LLM 生成的文本似乎如此有意义。除了拥有基本字典的知识，并理解文本连贯性的代码之外，人类还可以访问语义百科全书来匹配生成文本的单词，以及一个从中借用合成文本中未明确说明的属性的真实世界。此外，互文知识也会发挥作用，并识别体裁主题，甚至让读者预测文本将如何发展。

模型作者和模型读者

人类撰写的文本与 LLM 生成的合成文本之间的一个区别是，前者是由有意图的作者创作的。无论是严肃的文章还是互联网论坛上的讽刺散文，作者都有意图，这些意图会影响他们创作的文本。从选择表达信息的语言，到他们期望读者拥有的百科全书式知识类型，作者会做出很多决定，以确保他们信息的语义接收者与这些接收者的统计语义特征相匹配。¹⁵

在《读者的角色》中，埃科将这位理想的读者称为“模型读者”，而对应的则是“模型作者”。请注意，这些术语不是指经验作者或读者，而是被视为两者都采用的文本策略，目的是为了成功地解释文本。埃科将这两个概念呈现为描述经验作者和经验读者之间合作的一种方式。因为，正如他所说

“文本是一种懒惰（或经济）的机制，它依赖于接受者引入的意义的剩余价值 [...]”

回到最初关于自动扶梯上狗的例子，基于模型作者的形象，读者知道挂在伦敦地铁墙上的标志，具有特定的颜色和排版，一定是某个有能力执行标志所说内容的权威机构放置在那里的。

然而，当解释 LLM 生成的文本时，谁是模型作者？这位作者拥有什么样的语义和百科全书式的能力？LLM 生成的文本背后是否有意图？

其中一些问题可以通过查看模型是如何训练的来回答。在 Jesse Dodge 等人的论文“记录大型网络文本语料库：以巨型清洁抓取语料库为例”中，作者讨论了公司使用哪种类型的文本语料库来训练目前通过聊天应用程序、搜索引擎和类似应用程序部署到公众的某些 LLM。⁴ 他们解释了如何从未经筛选的英文文本语料库中进行多次传递以删除文本，范围从过滤掉与英文不相似的数据，到删除包含来自禁用词列表的标记的文本。作者解释说，这种类型的过滤“不成比例地删除了与少数族裔身份相关的英语方言文档。”此外，过滤器会删除包含污言秽语的文档。虽然根据用例，其中一些过滤器可能被认为是适当的，但公众有必要了解这种类型的过滤，因为尽管目前人们对 LLM 生成的文本着迷，但用户需要尽可能多的线索来以适当的方式构建合成文本。

本文前面讨论了百科全书式的能力。它与语义能力有何不同？为什么它对 LLM、其程序员及其用户很重要？帕特里齐亚·维奥利解释说：¹⁷

“[...]有些事实，当被忽略时，表示文化知识匮乏或不足，但对我们的语言能力没有任何影响，还有一些事实，对这些事实的无知表明缺乏语言能力。”

语义能力使人们能够成为语言的使用者，而百科全书式的能力则表明这些使用者属于特定的文化。在整个西班牙语世界，这非常常见：只有一个西班牙语词典，但由于文化差异，来自不同拉丁美洲国家的两位说话者在词汇层面上可能彼此非常了解，但他们可能不理解某些词在特定语境中的含义。

因此，百科全书是一个有助于定义文化的跨主观概念。这种跨主观协议规范了事物可能意味着什么，但这种协议必须不时地进行验证，就像不同国家的西班牙语使用者的情况一样，因此不能将其视为理所当然。¹⁷ 由于百科全书规范了意义，那么 Dodge 等人的工作就变得至关重要，因为它记录了 LLM 如何构建它们的百科全书。

LLM，你玩的是什么游戏？

奥地利哲学家路德维希·维特根斯坦引入了语言游戏的概念来描述人们彼此交谈的方式。他认为，就像下棋有规则一样，话语也可以根据规定如何使用它们的规则来定义。¹³ 因此，无论是明确的还是不明确的，每次对话似乎都带有规则。

在让-弗朗索瓦·利奥塔德的著作《后现代状况》中，他解释说，如果这些规则被修改或忽略，这些规则不一定是玩家明确或知道的，可能会破坏沟通。¹³ 朋友们放学后说的“明天见”与校长在训话后对其中一名学生说的同一句话含义不同，也与其中一位朋友在登上为期六个月的交流旅行的飞机时说同一句话含义不同。

第一个是寒暄语（用于维持社会关系），第二个是命令，最后一个是告别玩笑。朋友们第二天是否见面并不重要，但如果学生第二天没有出现在办公室，校长会担心。如果您将这些交流视为语言游戏，您可以看到它们如何设定每个玩家的某些期望。

那么，与 LLM 进行的语言游戏的规则是什么？合成文本的意图是什么？读者是否应该发挥他们所有的百科全书式的知识来帮助合成文本发挥作用？

在这里，挑战落在将 LLM 暴露给公众的应用程序上，以及它们如何使语言游戏尽可能清晰。由于缺乏明确的规则，似乎人类最终会制定自己的规则，并倾向于将对话者人性化，正如 ELIZA 效应所描述的那样，该效应以麻省理工学院约瑟夫·维森鲍姆于 1966 年创建的 ELIZA 聊天机器人命名。学者道格拉斯·霍夫斯塔特将其定义为“人们容易在符号串——尤其是计算机串在一起的单词——中解读出比有保证的更多的理解”。¹¹

构建 LLM 读者

在论文“模型报告的模型卡片”中，Mitchell 等人提出了“模型卡片”的想法，作为一种将信息附加到机器学习模型的方式，指示其训练细节、性能等等。¹⁴ 以类似的方式，将 LLM 生成的内容呈现给公众的应用程序应通过标签和其他用户界面功能提供足够的线索，供用户了解呈现给他们的信息的来源。

正如埃科所说，如果文本是一个“句法-语义-语用”设备，其预见的解释是其生成过程的一部分，⁶ 那么向用户呈现 LLM 生成的文本的应用程序应该帮助解释的语用方面。

想想书的封面以及它如何帮助读者将文本置于语境中。通常，书的封面或书脊会提供关于书籍类型的线索：小说、教科书等。封底或书衣有助于识别作者，并让读者将书放在给定的时期。

报纸具有一定的形状和排版，清楚地表明它是一份新闻出版物。当读者看到 LLM 生成的文本时，也应该进行类似的识别，这不仅是为了对人类公平，也是为了方便对生成的文本进行解释，以避免（除其他外）被视为对世界的预言式回应。

虽然我们离为 LLM 和使用它们的应用程序制定一套行业公认的指南还很遥远，但一个好的起点是期望这些类型的应用程序披露用于训练模型的文本语料库。此外，应该了解用于 RHLF（人类反馈强化学习）的过程的详细信息，例如提供反馈的人群的多样性，或者他们说的语言。

冒着在 LLM 和人类之间划等号的风险，用户了解他们投射到 LLM 上的模型作者所依据的百科全书将是有益的。每当您阅读时，您都会投射一位理想的作者，他具有一定的知识和作者以前写过的一系列作品等等；基于这些期望，您形成一种策略，帮助您理解文本以及作者可能意味着什么。例如，14 世纪的意大利人不可能了解美洲大陆，因为欧洲人很久以后才了解它，因此读者不会期望但丁·阿利吉耶里将其纳入他的《神曲》中。另一方面，如果一位当前的意大利作家声称大西洋以外一无所有，您可能会认为这是一个玩笑。虽然这些例子可能听起来牵强，但它们清楚地表明，在任何解释工作之前，非常重要的是要意识到任何作者（更不用说生成合成文本的 LLM）可用的百科全书的新鲜度。

文本可以通过多种方式帮助读者构建其解释所需的语境。对于 LLM 生成的文本，为生成的回复提供引文，以及标记所查询的外部系统的信息，有助于对文本的语用回应。对于特定问题获得 LLM 生成的回复与让 LLM 将用户的提示解析为问题，然后通过汇总网络搜索产生的文章来生成答案是不同的。在第一种情况下，答案由 LLM 生成——记住，LLM 生成下一个最可能的标记。¹⁸ 在第二种情况下，它是来自人类生成来源的摘要。文本的呈现和标签应该足够清晰，让用户能够区分两者。

结论

在本文中，我们展示了读者在多大程度上帮助懒惰的机制（即文本）发挥作用以产生其意义。另一方面，作者应该构建一个读者，以便两者可以在文本的解释中相遇。现在我们正处于一种伪装成古老文本的新媒介面前，但该文本是由 LLM 生成的，没有作者的意图——如果事先知道这一点，那么人类对一段文本应该抱有的期望和回应就会完全改变。我们的解释能力应该被调动起来吗？如果应该，在什么条件下？语言游戏的规则应该明确说明；它们不应被沉默寡言地跳过。

致谢

在本文的创作过程中，我衷心感谢以下人员提供的宝贵反馈和意见：Silvana F.、Daniel P. 和 Sergio S.。你们的讨论极大地帮助我塑造了这篇文章。

参考文献

1. Bender, E. M., Gebru, T., McMillan-Major, A., Schmitchell, S. 2021. 论随机鹦鹉的危险：语言模型会太大吗？ 公平性、责任制和透明度会议论文集，610–623； https://dl.acm.org/doi/10.1145/3442188.3445922 。

2. Booker, C. 2004. 七种基本情节。纽约：Bloomsbury Continuum。

3. Borges, J. L., Hurley, A. 1962. 博尔赫斯与我。载于虚构集。Grove Press。

4. Dodge, J. 等人。2021. 记录大型网络文本语料库：以巨型清洁抓取语料库为例。载于自然语言处理实证方法会议论文集；https://doi.org/10.18653/v1/2021.emnlp-main.98。

5. Eagleton, T. 2015. 文学理论导论。霍博肯，新泽西州：Blackwell Publishing。

6. Eco, U. 1979. 导言：读者的角色。载于读者的角色。布卢明顿，印第安纳州：印第安纳大学出版社。

7. Eco, U. 1990. 小世界。载于解释的界限，74–75。布卢明顿，印第安纳州：印第安纳大学出版社。

8. Eco, U. 1990. 两个层次的解释。载于解释的界限，54–55。布卢明顿，印第安纳州：印第安纳大学出版社。

9. Eco, U. 2016. Lector in Fabula：叙事文本中的解释性合作。米兰，意大利：Bompiani，Editore。

10. Friederici, A. D. 2017. 语言作为特定的认知系统。载于我们大脑中的语言：人类独特能力的起源，3–4。剑桥，马萨诸塞州：麻省理工学院出版社。

11. Hofstadter, D. 1995. 流体概念和创造性类比：思维基本机制的计算机模型。纽约州纽约市：Basic Books。

12. Kristeva, J. 1980. 词语、对话和小说。载于语言中的欲望，66。纽约州纽约市：哥伦比亚大学出版社。

13. Lyotard, J.-F. 1979. 方法：语言游戏。载于后现代状况：关于知识的报告。巴黎，法国：Les Éditions de Minuit。

14. Mitchell, M. 等人。2019. 模型报告的模型卡片。载于 FAT* '19：公平性、责任制和透明度会议； https://doi.org/10.1145/3287560. 3287596

15. Shannon, C. E., Weaver, W. 1998. 三个层次的沟通问题的相互关系。载于通信的数学理论。厄巴纳：伊利诺伊大学出版社。

16. Violi, P. 1998. 个人和公共百科全书。载于翁贝托·埃科的替代方案：文化政治和解释的歧义，0–33。纽约州纽约市：Peter Lang。

17. Violi, P. 2001. 百科全书式的能力和语义能力。载于意义与经验，杰里米·卡登翻译，159–164。布卢明顿，印第安纳州：印第安纳大学出版社。

18. Wolfram, S. 2023. ChatGPT 在做什么……以及它为什么有效？Stephen Wolfram Writings；writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work 。

阿尔瓦罗·维德拉是微软的开发者布道师。他是RabbitMQ 实战的合著者，并曾为撰稿。他的 Twitter 账号是 @old_sound。

最初发表于 Queue 第 21 卷，第 3 期—
在数字图书馆中评论本文

更多相关文章

马克·鲁西诺维奇、艾哈迈德·萨利姆、圣地亚哥·扎内拉-贝格林、约纳坦·宗格 - 智能的代价
LLM 容易产生幻觉、提示注入和越狱，这对它们的广泛采用和负责任的使用构成了重大但可克服的挑战。我们认为这些问题是固有的，当然在当前这一代模型中是这样，并且可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“纵深防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方向上失败。

索尼娅·约翰逊-于、桑克特·沙阿 - 你对人工智能一窍不通
在很长一段时间里，很难确切地定义人工智能到底是什么。几年前，这样的讨论会演变成数小时的会议，绘制维恩图并试图描绘人工智能的不同子领域。快进到 2024 年，我们现在都知道人工智能到底是什么了。人工智能 = ChatGPT。或者不是。

Jim Waldo, Soline Boussard - GPT 和幻觉
这项实验的发现支持了以下假设：基于大型语言模型的 GPT 在更流行且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性 подчеркивает 模型依赖于其训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统类似。因此，虽然 GPT 可以作为许多日常任务的有用工具，但应谨慎解读它们对晦涩和两极分化主题的处理。

Erik Meijer - 虚拟阴谋：将大型语言模型用作神经计算机
我们探索了大型语言模型 (LLM) 如何不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言，它形式化和外化了思维链推理，就像它可能发生在一个大型语言模型内部一样。