2015年6月28日
第13卷，第6期

人工智能与人机交互交叉领域的自然语言翻译

利用人工智能和人机交互解答旧问题

斯潘塞·格林、杰弗里·希尔和克里斯托弗·D·曼宁

人工智能 (AI) 和人机交互 (HCI) 领域正以前所未有的方式相互影响。诸如谷歌翻译、Facebook 图谱搜索和 RelateIQ 等广泛使用的系统将大规模人工智能系统的复杂性隐藏在直观的界面之后。但两者之间的关系并非总是如此吉祥。这两个领域在计算机科学史上的不同时期出现，受到不同的影响，抱负和伴随的偏见也各有不同。人工智能旨在构建人类智能的竞争对手，甚至可能是其继任者。早期的 AI 研究人员，如麦卡锡、明斯基和香农，都接受过数学方面的培训，因此定理证明和形式模型是很有吸引力的研究方向。相比之下，人机交互更侧重于可用性和人为因素的经验方法，这两者通常都旨在使机器对人类更有用。 1983 年第一届 CHI 会议的许多与会者都是心理学家和工程师。提交的论文标题包括“人机界面设计原则”和“命令菜单中图标使用的心理问题”，这对大多数主流 AI 研究人员来说几乎没有吸引力。

自 20 世纪 60 年代以来，当人工智能遭遇挫折时，人机交互经常占据主导地位，这两个领域的成功和失败重新引导了思想和研究资金¹⁴。尽管艾伦·纽厄尔和赫伯特·西蒙等早期人物对这两个领域都做出了根本性的贡献，但人工智能和人机交互之间的竞争和相对缺乏对话是令人好奇的。这两个领域都广泛关注机器和智能人类主体之间的联系。近年来发生变化的是面向用户的 AI 系统的部署和采用。这些系统需要界面，从而导致这两个领域之间自然的交汇点。

在自然语言处理 (NLP) 中，这种交叉点再合适不过了。语言翻译就是一个具体的例子。在实践中，专业翻译人员使用机器辅助工具的建议来构建最终的高质量翻译。越来越多的翻译人员正在将机器翻译 (MT) 系统（如谷歌翻译）的输出纳入他们的工作。但是，我们如何超越对机器错误的简单纠正呢？最近，斯坦福大学、卡内基梅隆大学和欧洲 CasmaCat 联盟的研究小组一直在研究如图 1 所示的人机模型。

Natural Language Translation at the Intersection of AI and HCI: Interactive Language Translation

对于英文输入“Fatima dipped the bread”，基线 MT 系统提出了阿拉伯语翻译 غمس فاطمة الخبز，但该翻译是不正确的，因为主语动词 غمس（红色部分）具有阳性词形变化。用户通过添加词缀 ت 来更正词形变化，通常比她独自一人更快地得到最终翻译。这些更正也有助于机器，机器可以更新其模型，以便在未来的会话中生成更高质量的建议。在这个积极的反馈循环中，人类和机器都受益，但方式互补。为了实现这种交互式机器翻译系统，既需要遵循人机交互原则的界面，也需要强大的人工智能。

不为人所知的是，这种类型的系统最早在 20 世纪 50 年代初就被设想出来，翻译研究的发展在人工智能和人机交互之间的早期对话中发挥了重要作用。早期 MT 研究人员失败的梦想不仅仅是历史性的奇闻轶事，而是说明了知识偏见如何边缘化务实的解决方案，在本例中是人机翻译合作伙伴关系。作为实践 AI 和 HCI 研究人员，我们发现今天的对话具有许多相同的特征，因此历史叙事可以提供指导。在本文中，我们首先回顾那段历史。然后，我们总结了健康的人工智能-人机交互协作使翻译领域取得的最新突破。

交互式机器翻译简史

机器翻译作为数字计算机的应用早于计算语言学和人工智能，这两个领域都是计算机科学的范畴，机器翻译现在被归类于这两个领域。人工智能 (AI) 一词首次出现在麦卡锡、明斯基、罗切斯特和香农于 1956 年在达特茅斯学院组织的一次会议的参与邀请中。但到 1956 年，MT 已成为一个非常活跃的研究领域，1954 年乔治城大学的 MT 演示受到了广泛的媒体报道。计算语言学领域是从早期对机器翻译的研究中发展起来的。 MT 研究面向跨语言的语言结构模型，诺姆·乔姆斯基在生成语言学方面的并行理论发展产生了一定的影响²¹。

MT 研究的刺激因素是第二次世界大战期间通用计算机的发明和冷战的到来。在一封经常被引用的 1947 年 3 月的信中，沃伦·韦弗（Warren Weaver）——一位前数学教授，时任洛克菲勒基金会自然科学部门主任——询问麻省理工学院 (MIT) 的诺伯特·维纳（Norbert Wiener）关于基于计算机的翻译的可能性

我充分认识到……由于多重含义等原因造成的语义困难，我想知道设计一台可以翻译的计算机是否是不可思议的……人们自然会想，翻译问题是否可以被视为密码学中的问题。当我看到一篇俄语文章时，我会说“这实际上是用英语写的，但它已被编码成一些奇怪的符号。我现在将开始解码。”

（1947 年 3 月 4 日沃伦·韦弗致诺伯特·维纳的信）

维纳的回应持怀疑和不热情的态度，将困难归因于语言的广泛“内涵”。很少被引用的是韦弗在当年 5 月 9 日的回应。他提出了语言的许多组合可能性与实际使用的较少数量之间的区别

当然，[基础] 英语对诸如 get 之类的动作动词进行了多次使用。但即便如此，诸如 get up、get over、get back 等双词组合在基础英语中实际上并不是很多。假设我们采用 2,000 个单词的词汇表，并且为了保险起见，承认所有双词组合，就好像它们是单个单词一样。词汇量仍然只有四百万：对于现代计算机来说，这个数字并没有那么可怕，不是吗？

（1947 年 5 月 9 日沃伦·韦弗致诺伯特·维纳的信）

（“基础英语”是一种受控语言，由查尔斯·凯·奥格登创建，作为国际交流的媒介，在当时很流行。）

韦弗暗示了理论与使用之间的区别，这种区别最终将在 20 世纪 90 年代的经验革命中扎根：给定足够的数据，一个不完善的语言模型就足够了。本文末尾描述的统计 MT 技术就属于这种经验传统。

机器翻译的用例

到 1951 年，MT 研究正在进行中，韦弗已成为国家科学基金会 (NSF) 的主任。一项 NSF 资助——可能是在韦弗的影响下——资助了以色列哲学家耶霍舒亚·巴希勒尔 (Yehoshua Bar-Hillel) 被任命为麻省理工学院电子研究实验室（Hutchins，1997，p. 220）¹⁹。那年秋天，巴希勒尔参观了美国主要的 MT 研究机构，包括加州大学洛杉矶分校、兰德公司、加州大学伯克利分校、华盛顿大学和密歇根大学安娜堡分校。他准备了一份调查报告¹，在次年 6 月他召集的第一次 MT 会议上提交。

该报告包含两个基本思想。首先，巴希勒尔预测了“机器翻译”的两个用例。第一个是传播

其中之一是迫切需要以高精度和合理的速度翻译外语出版物，主要是科学、金融和外交领域……¹

传播用例的特点是期望的质量阈值。另一个用例是吸收

另一个是需要高速扫描大量的印刷输出，尽管可能准确性较低。¹

巴希勒尔观察到，近期实现“纯 MT”要么不太可能，要么“只能以不准确为代价来实现”。然后，他赞成混合 MT，“即人类大脑干预的翻译过程”。至于这种干预应该发生在管道的哪个位置，巴希勒尔建议

……人类伙伴必须被置于翻译过程的开始或结束，或许两者兼而有之，但最好不要在过程的中间……¹

然后，他继续定义了现在常用的术语预编辑（用于 MT 之前的干预）和后编辑（用于 MT 之后的干预）。调查的其余部分主要涉及这种预编辑和后编辑，显示出一种务实的倾向，这种倾向将在十年后完全显现出来。在确定了今天仍在使用的术语和区别之后，巴希勒尔于 1953 年返回以色列，并暂停了 MT²¹。

1958 年，美国海军研究办公室委托巴希勒尔再次对 MT 研究进行调查。那年 10 月，他访问了美国和英国的研究机构，并收集了有关苏联发展情况的公开信息。他的后续报告的一个版本于 1959 年流传开来，但 1960 年出版的修订版引起了更大的关注。

巴希勒尔在 1960 年提出的中心论点是，专注于“纯 MT”（他当时称之为全自动高质量翻译 (FAHQT) 的标签）是“不合理的”，尽管有人声称即将取得成功，但他“无法被说服相信其有效性”。他提供了一个附录，其中包含一个据称证明 FAHQT 不可能性的证明。该证明是一个简单的段落中具有多种含义的句子（用斜体表示），如果没有额外的语言知识，则很难翻译（“小约翰正在寻找他的玩具箱。最后他找到了。 箱子在围栏里”）。五十四年后，谷歌翻译仍然无法为许多语言对正确翻译这个句子。

巴希勒尔概述了两条前进的道路：像以前一样继续下去，或者赞成一些“不那么雄心勃勃的目标”。那个不那么雄心勃勃的目标是混合 MT

一旦 MT 的目标降低到机器-后编辑合作伙伴关系的高质量翻译，决定性问题就变成了确定可能的劳动分工连续体中的最佳区域²。

巴希勒尔感叹，“减少后编辑人员的工作量的意图已经吸收了 MT 中大多数工作人员的大量时间和精力”，以至于他在 1951 年提出的混合 MT 建议几乎被忽略了。没有研究小组幸免于批评。他的结论预示了美国政府在本十年晚些时候的裁决

全自动、高质量的翻译不是一个合理的目标，即使对于科学文本也是如此。人工翻译人员为了获得高质量的输出，经常不得不智能地使用语言外的知识，而这些知识有时必须具有相当的广度和深度²。

到 1966 年，巴希勒尔的悲观情绪已得到广泛认同，至少在美国政府的研究资助者中是这样，美国政府根据 ALPAC 报告的建议大幅削减了对 MT 研究的资助。有两段话涉及后编辑，并预示了未来几十年研究人员在向人类提供机器建议时将面临的斗争。首先

……在工作 8 年后，乔治城大学 MT 项目试图在 1962 年产生有用的输出，他们不得不求助于后编辑。后编辑的翻译花费的时间略长，而且比传统的人工翻译更昂贵。（Pierce，1966，p. 19）²⁷

引用自布朗大学物理系罗伯特·拜尔（Robert Beyer）的一篇文章，他讲述了自己后编辑俄英机器翻译的经历。他说

我必须承认，结果非常令人不快。我发现我花在编辑上的时间至少与我从头开始进行整个翻译所花费的时间一样多。即使这样，我怀疑编辑后的翻译是否像我从头开始的翻译那样流畅³。

ALPAC 报告的结论是，二十年的研究产生的系统几乎没有实际价值，不足以证明政府的财政投入是合理的。与普遍认为该报告结束了 MT 研究的观点相反，该报告建议建设性地重新关注“加快人工翻译过程的方法”和“评估各种机器辅助翻译的相对速度和成本”²⁷。这两项建议都符合巴希勒尔早期关于机器辅助翻译的议程。

机器的适当角色

对 FAHQT 的执着而牺牲混合翻译，这表明在 AI 研究的第一个十年中存在更广泛的哲学暗流。那些提倡 FAHQT 的人——无论是隐含的还是明确的——都支持这样一种愿景，即计算机最终将与人类能力匹敌并取而代之。诺贝尔奖获得者赫伯特·西蒙在 1960 年著名地写道，“机器将在二十年内能够完成人类可以做的任何工作”²⁹。巴希勒尔的提议符合更持怀疑态度的一派的精神，他们认为机器增强现有的人类设施是一个更合理和可实现的目标。

J. C. R. 利克莱德 (J. C. R. Licklider) 对早期的人机交互和人工智能研究产生了相当大的影响¹⁵，他在 1960 年的论文“人机共生”²⁴ 中阐述了这一立场，这篇论文现在被认为是人机因素引入计算领域的一个里程碑。他在摘要中写道，“在预期的共生伙伴关系中，人将设定目标，提出假设，确定标准，并进行评估。” 计算机将完成“可例行化的工作”。他引用美国空军的一份报告，该报告的结论是，人工智能在 20 年内不可能“让机器单独进行大量具有军事意义的思考或解决问题”，利克莱德建议，人机交互研究在过渡时期可能会有所帮助，尽管过渡时期可能是“10 年或 500 年”。利克莱德和巴希勒尔彼此认识。他们都参加了与 1961 年麻省理工学院百年校庆同时举行的会议（麦卡锡、香农和维纳等人也在场），巴希勒尔在会上直接提出了这个问题：“我们想要与人类竞争并自主实现智能行为的计算机，还是我们想要所谓的人机共生？”¹⁶ 他继续批评“过去几年在第一条道路上的巨大浪费”，认为指望计算机“像人类大脑那样自主地工作，而人类大脑已经进化了数十亿年”是不明智的。巴希勒尔和利克莱德还参加了 1967 年的控制论研讨会¹⁷ 和 1973 年的北约信息科学研讨会⁹。对人工智能的期望值仍然是整个这段时期的中心问题。

利克莱德的名字确实出现在 1966 年的 ALPAC 报告中，该报告主张减少对 FAHQT 的研究资助。在叙述了 1962 年乔治城大学令人失望的后编辑结果后，该报告称，尽管如此，有两个小组仍打算开发后编辑“服务”。但“IBM 的 J. C. R. 利克莱德博士和 Bunker-Ramo 的保罗·加文博士表示，他们不会建议他们的公司建立这样的[后编辑]服务”²⁷。

后编辑翻译与人工翻译花费的时间相同，这一发现证明了界面问题。即使早期的 MT 系统也肯定会正确生成一些单词和短语，尤其是对于科学文本，科学文本通常以程式化和重复的风格编写。那么，问题就变成了人机交互问题：如何最好地向人类用户展示建议。

后来，人机方案将与道格拉斯·恩格尔巴特 (Douglas Engelbart) 最为密切相关，他在 1962 年撰写了一份冗长的研究提案——他称之为“概念框架”¹¹。该提案提交给了当时担任美国高级研究计划署 (ARPA) 主任的利克莱德。到 1963 年初，利克莱德资助了恩格尔巴特在斯坦福研究所 (SRI) 的研究，他曾告诉几位熟人，“好吧，他[恩格尔巴特]在那边的帕洛阿尔托，所以我们可能期望不高。但他用对了词，所以我们有点有义务资助他”³²。

恩格尔巴特写道，“通过增强人类智力，我们指的是提高一个人处理复杂问题情境、获得适合其特定需求的理解以及得出问题解决方案的能力。” 这些增强的能力包括“更快的理解、更好的理解、……更快的解决方案、[和]更好的解决方案”¹¹。稍后，他将解决问题描述为抽象符号操作，并给出了一个预示大规模文本索引的例子，例如网络爬虫和统计机器翻译中所做的那样

我们发现自己所做的事情是，当不得不大量消化期刊文章时，将大量文本逐字输入计算机存储器。能够将其拆开，建立我们自己的定义，并替换、重组、附加注释等等，以追求理解，真是太好了¹¹。

他接着说，许多同事已经在使用增强的文本操作系统，一旦输入文本，几乎就不需要原始参考文献了。 “它像橘子皮一样放在档案中，大部分真正的汁液都被榨干了”¹¹。

马丁·凯和第一个交互式 MT 系统

到 20 世纪 60 年代后期，兰德公司的马丁·凯和同事开始设计人机翻译系统，该系统的第一个版本被称为 MIND⁵。他们的系统（图 2）从未建成，其中包括单语编辑人员在源（句法）分析和目标生成期间的人工干预（与马丁·凯的个人交流，2014 年 11 月 7 日）。

Natural Language Translation at the Intersection of AI and HCI: The MIND System

图 2 显示了 MIND 系统⁵。单语预编辑人员在转换之前消除源分析的歧义。单语后编辑人员确保生成后目标语言的流畅性。

MIND 符合巴希勒尔 1951 年的预编辑和后编辑计划。凯在 1980 年进一步提出了一个“翻译员助手”的建议，这将是一个“带有翻译特有的一些简单功能的文字处理器”²²。凯的议程在精神上与巴希勒尔的“混合 MT”和恩格尔巴特的人工增强相似

我想倡导一种观点，即机器被逐步地、几乎不知不觉地允许接管…… 首先，它们将接管与翻译本质上无关的功能。然后，它们将一点一点地接近翻译本身。

凯看到了用户导向型 MT 的三个好处。首先，系统——现在得到了用户的关注——将能够更好地指出不确定的翻译。其次，由于机器将在翻译过程中的特定点逐步调用，因此可以防止级联错误。第三，机器可以记录和学习交互历史。凯提倡协作改进结果：“人和机器正在协作，不仅产生文本的翻译，而且还产生一种设备，该设备对翻译的贡献不断增强”²²。这三个好处现在将被认为是有效的混合主动系统的核心特征。^6,18

凯的建议对 20 世纪 80 年代开发和评估的商业“翻译工作台”几乎没有影响²⁰，这可能是由于他的 1980 年备忘录的流通有限（直到 1998 年才出版²³）。然而，类似的理念正在杨百翰大学作为自动化语言处理 (ALP) 项目的一部分进行研究。 ALP 于 1971 年启动，旨在将摩门教文本从英语翻译成其他语言，并于 1973 年将重点转移到机器辅助翻译³⁰。该项目的理念由艾伦·梅尔比 (Alan Melby) 阐述，他写道“计算机将为人类翻译人员服务，而不是取代人类翻译人员”²⁶。 ALP 开发了交互式翻译系统 (ITS)，该系统允许在源分析和语义转换阶段进行人工交互。²⁶ 但梅尔比发现在实验中，花在人工交互上的时间“非常令人失望”，因为一份 250 字的文件需要大约 30 分钟的交互，这“大致相当于人工翻译人员的初稿翻译”。他得出了几个结论，这些结论适用于在接下来的二十年中评估的大多数交互式系统

1. ITS 尚未充分帮助人工翻译人员，以证明工程开销是合理的。

2. 在线交互需要经过专门培训的操作员，进一步增加了开销。

3. 大多数翻译人员不喜欢后编辑。

由于“硬件成本以及人工交互的数量和难度”，ALP 从未生产出生产系统³⁰。

凯和梅尔比有意限制了 MT 系统和用户之间的耦合； MT 太不可靠，无法成为 постоянный 伴侣。 Church 和 Hovy 在 1993 年首次看到了更紧密耦合的应用⁸，即使 MT 输出“很糟糕”。他们总结了自 1966 年以来的用户研究，将后编辑描述为“极其乏味、单调且毫无回报的苦差事”。然后，他们提出了一个带有自动完成文本预测功能的“超高速打字机”，该功能将“从上下文中填充部分键入的单词/短语的其余部分”。另一种独立但相关的辅助工具是“Cliff-note”模式，在该模式下，系统将使用翻译注释源文本跨度。这两个功能都与他们认为 MT 的良好应用应该“利用机器的优势，而不是与人类的优势竞争”的信念相符。尤其是自动完成的想法直接影响了 TransType 项目¹²，这是第一个交互式统计 MT 系统。

自 20 世纪 80 年代以来发布的交互式 MT 研究记录中一个明显的缺失是对 HCI 文献的引用。人机交互作为一个有组织的领域，随着 SIGCHI 于 1982 年的成立和 1983 年第一届 CHI 会议的召开而出现¹⁴。 Stu Card、Thomas Moran 和 Allen Newell 合著的人机交互心理学也于同年出版⁷。它现在被认为是该领域的开创性著作，对推广 HCI 术语起到了很大的作用。其中几章分析了文本编辑交互，得出的结论直接适用于双语文本编辑，即翻译。但我们只知道在计算语言学协会文集（截至 2013 年）中数千篇 MT 论文中，有两篇 MT 论文^31,4 引用了 1983-2013 年 CHI 会议论文集中收录的文章。（可能还有更多，但无论如何，这个数字都非常小。）

回顾过去，交互式 MT 与早期 HCI 研究之间的联系是显而易见的。凯、梅尔比和 Church 都将交互式 MT 视为用双语功能增强的文本编辑器。 Card 等人将文本编辑确定为“人机交互研究的自然起点”，他们的书中大部分内容都将文本编辑视为人机交互案例研究。文本编辑是人机交互的“范例”，原因有几个：（1）交互速度快；（2）交互成为用户无意识的延伸；（3）文本编辑器可能是使用最频繁的计算机程序；（4）文本编辑器是其他交互式系统的代表⁷。以用户为中心的翻译方法将从文本输入开始，并寻求仔细的双语干预，通过用户评估来提高支持级别，正如巴希勒尔和凯在几十年前建议的那样。

交互式 MT 的最新突破

这一切并不是说人工智能和人机交互的交叉领域缺乏富有成效的合作。微软的 Horvitz 及其同事的里程碑式工作确立了混合主动设计原则，这些原则已得到广泛应用。¹⁸ 巴希勒尔指出了找到人和机器之间“最佳区域”的需求； Horvitz 的原则为找到该区域提供了设计指导（从研究经验中提炼出来）。在 UbiComp 和 HCOMP 等主要人/机会议上，新的见解不断涌现。公司生成的数据爆炸式增长激发了 Tableau 和 Trifacta 等工具的出现，这些工具可以智能地协助用户聚合和可视化大型数据集。然而，直到最近，语言应用程序才在很大程度上引起人们的注意。

当我们于 2012 年开始研究混合主动翻译时，我们发现即使是后编辑也存在混合实验记录。一些研究发现，它可以提高翻译人员的工作效率，而另一些研究则显示了经典的负面结果。在 CHI 2013 上，我们展示了一项关于三种不同语言对（英语到阿拉伯语、法语和德语）的 MT 输出后编辑的用户研究。受试者间设计在人机交互研究中很常见，但在自然语言处理中却很少见，并且包括对时间和质量的统计分析，这些分析控制了后编辑人员的可变性。结果表明，后编辑最终减少了翻译时间并提高了专业翻译人员的质量。该结果可能归因于控制了先前工作中被忽视的混淆来源，但也可能来自统计 MT 的快速改进，这应该促使用户重新审视他们的假设。例如，为了避免偏见，没有告诉受试者这些建议来自谷歌翻译。然而，一位受试者后来评论说

你们的机器翻译比谷歌、巴贝尔等的好得多。因此它们很有帮助，但通常当我拿到谷歌翻译的材料时，我发现自己从头开始做会更容易、更快捷。

Horvitz 的 12 项原则之一是混合主动系统应该通过观察用户来学习。回想一下图 1 的顶部，其中最终翻译被返回到 MT 系统以进行调整。 MT 在线机器学习的最新改进使这个旧想法成为可能。 Denkowski 等人（2014）¹⁰ 是第一个表明用户可以检测到基线 MT 系统和根据后编辑调整的精细模型之间质量差异的人。与基线建议相比，调整后的建议需要的编辑更少，并且在质量方面被评为更高。更新可以在几秒钟内发生，而不是传统应用的数小时批量程序。

这些定量上的成功与许多研究中观察到的后编辑的定性评估形成对比：它是一项“乏味且单调的苦差事”⁸。翻译人员往往不喜欢纠正有时存在致命缺陷的 MT 输出。在上一节中，我们展示了已经构建和评估了更丰富的交互模式，但没有一种模式相对于后编辑（早在 1962 年乔治城大学的实验中就已考虑过）提高了翻译时间或质量。

去年，我们开发了预测翻译记忆库 (PTM)（图 3），这是一个混合主动系统，其中人类和机器代理以交互方式改进翻译。最初的体验类似于后编辑——有一个建议的机器翻译——但当用户开始编辑时，机器会根据用户输入生成新的建议。翻译是协作改进的，责任、控制和轮流由用户界面协调。使这成为可能的 NLP 创新是快速搜索和在线参数学习。新颖的界面设计受到了 Horvitz 的混合主动指南、图形感知基础知识和 CHI 2013 用户研究结果的启发。

Natural Language Translation at the Intersection of AI and HCI: The Predictive Translation Memory Interface

在一项针对专业翻译人员的用户研究中，我们发现 PTM 是第一个相对于后编辑提高翻译质量的交互式翻译系统¹³。这是传播场景的理想结果，在传播场景中，人工干预对于保证准确性是必要的。此外，我们发现 PTM 为调整 MT 系统以适应每个用户的风格和用词生成了更好的训练数据。 PTM 记录了生成最终翻译的用户编辑序列。这些编辑以机器可读的方式解释了用户如何生成翻译，这是以前无法获得的数据。我们目前的研究正在调查如何在大型环境中更好地利用这种丰富的数据源。这是 Horvitz 最著名的混合主动系统设计建议之一的动机：最大限度地减少对行动和时机的不良猜测的成本¹⁸。

结论

我们已经表明，用于语言翻译的人机系统设计使人类用户（他们产生更高质量的翻译）和机器代理（他们可以根据丰富的反馈改进其模型）都受益。混合主动 MT 系统早在 1951 年就已构思出来，但由于 AI 研究界的偏见，这一想法被边缘化了。新的结果是通过结合人工智能和人机交互的见解而获得的，这两个社区具有相似的战略目标，但在过去几十年中令人惊讶地互动有限。自然语言处理中的其他问题（如问题解答和语音转录）可以从交互式系统中受益，这些系统与我们为翻译提出的系统非常相似。在这些系统的设计中需要考虑的重要问题是

• 如何有效地将人类插入处理循环中。

• 即使机器建议有时存在致命缺陷，如何最大限度地提高人类的效用。

• 如何在任务设置中隔离然后改进特定界面干预措施（例如，整句建议与自动完成短语）的贡献。

这些问题在人工智能和人机交互成为有组织的领域之前很久就在翻译界被预见到了。这些领域之间的新对话正在产生新的方法，这些方法不仅适用于翻译，而且适用于其他试图增强人类智力并从中学习的系统。

参考文献

1. Bar-Hillel, Y. (1951). 机械翻译的当前研究状态。 美国文献 2 (4): 229-237.

2. Bar-Hillel, Y. (1960). 语言自动翻译的现状。计算机进展 1: 91-163.

3. Beyer, R. T. (1965). 跨越语言障碍。 今日物理 18 (1): 46-52.

4. Birch, A., Osborne, M. (2011). MT 的重排序指标。

5. Bisbey, R., Kay, M. (1972). MIND 翻译系统：人机协作研究。技术报告 P-4786, 兰德公司。

6. Carbonell, J. (1970). CAI 中的 AI：计算机辅助教学的人工智能方法。 IEEE 人机系统汇刊 11 (4): 190-202.

7. Card, S. K., Moran, T. P., Newell, A. (1983). 人机交互心理学。 Lawrence Erlbaum Associates.

8. Church, K. W., Hovy, E. (1993). 糟糕的机器翻译的良好应用。 机器翻译 8: 239-258.

9. Debons, A., Cameron, W. J. (Eds.) (1975). 信息科学的视角，北约高级研究学院系列第 10 卷。施普林格。

10. Denkowski, M., Lavie, A, Lacruz, I., Dyer, C. (2014). 实时自适应机器翻译，用于使用 cdec 和 TransCenter 进行的术后编辑。《EACL 2014 人机辅助翻译研讨会论文集》。

11. Engelbart, D. C. (1962). 增强人类智能：概念框架。 SRI 总结报告 AFOSR-3223 技术报告。

12. Foster, G., Langlais, P., Lapalme, G. (2002). TransType：面向翻译人员的文本预测。《ACL 演示论文集》，93-94 页。

13. Green, S., Wang, S., Chuang, J., Heer, J. Schuster, S., Manning, C. D. (2014). 计算机辅助翻译中的人类努力和机器可学习性。《EMNLP 论文集》，1225-1236 页。

14. Grudin, J. (2009). AI 和 HCI：共同焦点分隔的两个领域。《AI Magazine》30 (4), 48-57。

15. Grudin, J. (2012). 不断变化的目标——人机交互的演变。见 Jacko, J. A. (编), 《人机交互手册：基础、发展中的技术和新兴应用》（第三版），xxvii-lxi。CRC Press。

16. Hauben, M., Hauben, R. (1997). Netizens：关于 Usenet 和互联网的历史和影响。 IEEE Computer Society Press, Los Alamitos, CA。

17. Hauben, R. (2003). Heinz von Foerster、Margaret Mead 和 JCR Licklider 以及互联网的概念基础：控制论的早期关注。《控制论》。2003 年 11 月 16 日在德国柏林“Die Kybernetik der Kybernetik”研讨会上的演讲。

18. Horvitz, E. (1999). 混合主动用户界面的原则。《CHI 论文集》（1999 年 5 月 15-20 日）。

19. Hutchins, J. (1997). 从最初构思到首次演示：机器翻译的初创时期，1947-1954 年：年表。《机器翻译》12 (3): 195-252。

20. Hutchins, J. (1998). 译员工作站的起源。《机器翻译》13: 287-307。

21. Hutchins, J. (2000). Yehoshua Bar-Hillel：哲学家对机器翻译的贡献。见 Hutchins, W. J. (编), 《机器翻译早期：先驱者的回忆录和传记》。John Benjamins。

22. Kay, M. (1980). 人和机器在语言翻译中的适当位置。技术报告 CSL-80-11, Xerox Palo Alto Research Center (PARC)。

23. Kay, M. (1998). 人和机器在语言翻译中的适当位置。《机器翻译》12 (1/2): 3-23。

24. Licklider, J. C. R. (1960). 人机共生。《IRE Transactions on Human Factors in Electronics》HFE1 1: 4-11。

25. Melby, A. K. (1984). 为翻译人员创建环境。见 M. King (编), 《第三届卢加诺教程论文集》，瑞士卢加诺 (1984 年 4 月 2-7 日)，124-132 页。Edinburgh University Press。

26. Melby, A. K., Smith, M. R., Peterson, J. (1980). ITS：交互式翻译系统。《COLING ‘80 （第七届国际计算语言学会议论文集）》。

27. Pierce, J. R. (编) (1966). 语言和机器：计算机在翻译和语言学中的应用。National Research Council Publication 1416。华盛顿特区：National Academy of Sciences。

28. Sanchis-Trilles, G., Alabau, V., Buck, C., Carl, M., Casacuberta F., García-Martínez, M., 等. (2014). 实践中的交互式翻译预测与传统术后编辑：使用 CasMaCat 工作台的研究。《机器翻译》28 (3/4): 1-19。

29. Simon, H. A. (1960). 管理决策的新科学。纽约：Harper。

30. Slocum, J. (1985). 机器翻译概览：其历史、现状和未来前景。《Computational Linguistics》11 (1): 1-17。

31. Somers, H., Lovel, H. (2003). 为英语能力有限的患者提供计算机支持。《EAMT MT 和其他语言技术工具研讨会》。

32. Waldrop, M. M. (2001). 梦想机器：J. C. R. Licklider 和使计算个人化的革命。纽约：Viking。

喜欢还是讨厌？请告诉我们

[email protected]

Spence Green 最近在斯坦福大学完成了计算机科学博士学位。他因其在混合主动翻译方面的工作而获得了 CHI 2013 最佳论文奖。他拥有斯坦福大学计算机科学硕士学位和弗吉尼亚大学计算机工程学士学位。目前，他是交互式翻译系统提供商 Lilt 的联合创始人。

Christopher D. Manning 是斯坦福大学计算机科学和语言学教授。他于 1995 年在斯坦福大学获得博士学位，并在返回斯坦福大学之前曾在卡内基梅隆大学和悉尼大学担任教职。他是 Fellow、AAAI Fellow 和 ACL Fellow，并与他人合着了关于统计自然语言处理和信息检索的领先教科书。

Jeffrey Heer 是华盛顿大学计算机科学与工程学副教授，他在那里领导交互式数据实验室，并进行数据可视化、人机交互和社会计算方面的研究。他的实验室开发的visualization工具（D3.js、Vega、Protovis、Prefuse）被世界各地的研究人员、公司和数千名数据爱好者使用。Jeff 也是 Trifacta 的联合创始人，Trifacta 是一家提供可扩展数据转换交互式工具的供应商。

最初发表于 Queue vol. 13, no. 6—
在数字图书馆中评论这篇文章

更多相关文章

Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
LLM 容易出现幻觉、提示注入和越狱，这对它们的广泛采用和负责任的使用构成了重大但可克服的挑战。我们认为这些问题是固有的，在当前这一代模型中肯定是这样，而且可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“纵深防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方面失败。

Sonja Johnson-Yu, Sanket Shah - 你对 AI 一窍不通
长期以来，很难确定 AI 到底是什么。几年前，此类讨论会演变成数小时的绘制维恩图和尝试绘制 AI 不同子领域的会话。快进到 2024 年，我们现在都知道 AI 到底是什么了。AI = ChatGPT。或者不是。

Jim Waldo, Soline Boussard - GPT 和幻觉
这项实验的发现支持了以下假设：基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调，模型依赖于其训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统相似。因此，虽然 GPT 可以作为许多平凡任务的有用工具，但应谨慎解读它们对晦涩和两极分化主题的参与。

Erik Meijer - 虚拟阴谋：将大型语言模型用作神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言，它形式化和外化了思维链推理，因为它可能发生在大型语言模型内部。