实践研究

  下载本文的PDF版本 PDF

机器学习学术研究中令人不安的趋势

一些机器学习论文存在可能误导公众并阻碍未来研究的缺陷。

Zachary C. Lipton 和 Jacob Steinhardt

总的来说,机器学习 (ML) 研究人员致力于创造和传播关于数据驱动算法的知识。在一篇给定的论文中,研究人员可能期望实现以下目标中的任何子集,以及其他目标:从理论上描述什么是可学习的;通过经验严谨的实验获得理解;或构建一个具有高预测准确率的工作系统。虽然确定哪些知识值得探究可能是主观的,但一旦主题确定,论文在服务读者、创造基础知识并尽可能清晰地沟通时,对社区最有价值。

什么样的论文最能服务于读者?理想情况下,论文应完成以下工作:(1)提供直觉以帮助读者理解,但要明确区分直觉与证据支持的更强结论;(2)描述考虑并排除替代假设的实证研究;(3)明确理论分析与直觉或经验性主张之间的关系;以及(4)使用语言来增强读者的能力,选择术语以避免误导或未经证实的内涵、与其他定义的冲突或与其他相关但不同的概念的混淆。

尽管机器学习的近期进展经常偏离这些理想,但仍然取得了进展。《实践研究》的本期重点关注以下四种似乎在机器学习学术研究中呈上升趋势的模式

• 未能区分解释和推测。

• 未能识别实证收益的来源(例如,当收益实际上源于超参数调整时,却强调对神经架构的不必要修改)。

• “数学性”——使用数学来混淆或给人留下深刻印象,而不是澄清(例如,通过混淆技术和非技术概念)。

• 误用语言(例如,通过选择带有口语含义的术语或通过重载已建立的技术术语)。

虽然这些模式的原因尚不确定,但可能性包括社区的快速扩张、随之而来的审稿人库的稀薄,以及学术研究与短期成功衡量标准(例如,文献计量学、关注度和创业机会)之间经常错位的激励机制。虽然每种模式都提供相应的补救措施(不要这样做),但本文也提出了关于社区如何应对这些令人不安的趋势的建议。

随着机器学习影响力的扩大,以及研究论文的受众越来越多地包括学生、记者和政策制定者,这些考虑因素也适用于更广泛的受众。通过更清晰地沟通更精确的信息,更好的机器学习学术研究可以加快研究步伐,缩短新研究人员的入门时间,并在公共讨论中发挥更建设性的作用。

有缺陷的学术研究有可能通过损害机器学习的知识基础来误导公众并阻碍未来的研究。事实上,许多这些问题在人工智能(AI)和更广泛的科学研究的历史中周期性地重复出现。1976年,Drew McDermott26 斥责人工智能社区放弃自我约束,预言性地警告说,“如果我们不能批评自己,别人会替我们省去麻烦。”类似的讨论在1980年代、1990年代和2000年代反复出现。在心理学等其他领域,糟糕的实验标准已经削弱了对该学科权威的信任。33 机器学习目前的优势归功于迄今为止大量的严谨研究,包括理论研究和实证研究。通过促进清晰的科学思维和沟通,我们的社区可以维持目前享有的信任和投资。

 

免责声明

本文旨在引发讨论,响应国际机器学习大会 (ICML) 机器学习辩论研讨会的征稿。虽然我们坚持本文提出的观点,但我们并不声称提供全面或平衡的观点,也不讨论机器学习科学的总体质量。在许多方面,例如可重复性,社区的标准已经远远超过十年前的水平。

请注意,这些论点是由我们针对我们自己提出的——作为内部人士提供批判性的内省视角——而不是作为冷嘲热讽的局外人。此处指出的弊病并非特定于任何个人或机构。我们自己也曾陷入这些模式,并且将来可能还会再次陷入。表现出这些模式之一并不会使论文变坏,也不会谴责论文的作者;然而,所有论文都可以通过避免这些模式而变得更强大。

虽然我们提供了具体的例子,但我们的指导原则是(1)牵连我们自己;以及(2)优先从我们钦佩的更成熟的研究人员和机构的工作中选择,以避免挑出年轻学生,因为将他们纳入此讨论可能会产生后果,并且他们缺乏对称回复的机会。我们很荣幸属于一个提供充分学术自由的社区,以允许表达批判性观点。

 

令人不安的趋势

以下每个小节都描述了一个趋势;提供几个例子(以及抵制该趋势的正面例子);并解释了后果。指出个别论文的缺点可能是一个敏感的话题。为了最大限度地减少这种情况,这些例子简短而具体。

 

解释与推测

对新领域的研究通常涉及基于直觉的探索,而这些直觉尚未凝聚成清晰的形式化表示。推测是作者传达直觉的一种方式,这些直觉可能尚未经受住科学审查的充分考验。然而,论文通常以解释的名义提供推测,而这些推测随后被解释为权威性的,因为它们带有科学论文的色彩以及作者的推定专业知识。

例如,在2015年的一篇论文中,Sergey Ioffe 和 Christian Szegedy 围绕一个名为内部协变量偏移的概念形成了一个直觉理论。18 关于内部协变量偏移的论述,从摘要开始,似乎在陈述技术事实。然而,关键术语不够明确,无法最终确定真值。例如,该论文指出,批量归一化通过减少训练过程中隐藏激活分布的变化来提供改进。这种变化是用哪个散度度量来量化的?论文从未澄清,并且一些工作表明,对批量归一化的这种解释可能偏离了重点。37 然而,Ioffe 和 Szegedy 给出的推测性解释已被作为事实重复——例如,在 Hyeonwoo Noh、Seunghoon Hong 和 Bohyung Han 于 2015 年发表的论文中,31 该论文指出,“众所周知,深度神经网络由于内部协变量偏移问题而非常难以优化。”

我们同样也犯过将推测伪装成解释的错误。在 2017 年与 Pang Wei Koh 和 Percy Liang 合著的论文中,42 我(Jacob Steinhardt)写道,“高维度和大量不相关的特征……为攻击者提供了构建攻击的更多空间”,而没有进行任何实验来衡量维度对可攻击性的影响。在另一篇 2015 年与 Liang 合著的论文中,41 我(Steinhardt)引入了覆盖率的直觉概念,但没有定义它,并将其用作一种解释形式(例如,“回想一下,缺乏覆盖率的一个症状是对不确定性的不良估计以及无法生成高精度预测。” 回顾过去,我们渴望传达对论文中描述的工作至关重要但尚未充分阐明的直觉,并且不愿将论证的核心部分标记为推测性的。

与这些例子相反,Nitish Srivastava 等人39 将推测与事实分开。虽然这篇 2014 年的论文介绍了 dropout 正则化,并详细推测了 dropout 和有性生殖之间的联系,但指定的“动机”部分清楚地隔离了这种讨论。这种做法避免了混淆读者,同时允许作者表达非正式的想法。

在另一个正面例子中,Yoshua Bengio 提出了训练神经网络的实用指南。2 在这里,作者谨慎地传达了不确定性。该论文没有将指南呈现为权威性的,而是指出:“虽然这些建议来自多年的实验,并在一定程度上来自数学论证,但它们应该受到挑战。它们构成了一个良好的起点……但通常没有经过正式验证,留下了许多可以通过理论分析或可靠的比较实验工作来回答的问题。”

 

未能识别实证收益的来源

机器学习同行评审过程非常重视技术创新。也许为了满足审稿人的要求,许多论文都强调了复杂的模型(此处讨论)和花哨的数学(参见本文下一节的“数学性”)。虽然复杂的模型有时是合理的,但实证进展通常以其他方式出现:通过巧妙的问题表述、科学实验、优化启发式方法、数据预处理技术、广泛的超参数调整,或将现有方法应用于有趣的新任务。有时,许多提出的技术共同实现了显着的实证结果。在这些情况下,阐明哪些技术对于实现报告的收益是必要的,对读者是有帮助的。

作者经常提出许多调整,但缺乏适当的消融研究,从而掩盖了实证收益的来源。有时,实际上只有一个更改对改进的结果负责。这可能会给人一种错误的印象,即作者做了更多的工作(通过提出多项改进),而实际上他们做得不够(通过不执行适当的消融)。此外,这种做法误导读者相信所有提出的更改都是必要的。

在 2018 年,Gábor Melis、Chris Dyer 和 Phil Blunsom 证明,一系列已发表的语言建模改进,最初归因于网络架构的复杂创新,实际上是更好的超参数调整的结果。27 在同等条件下,自 1997 年以来几乎没有修改过的 vanilla LSTM(长短期记忆)网络在排行榜上名列前茅。社区本可以从学习超参数调整的细节中获益更多,而无需分心。在深度强化学习17 和生成对抗网络24 中也观察到了类似的评估问题。有关实证严谨性方面的疏漏及其造成的后果,请参阅 Sculley 等人的讨论。38

相比之下,许多论文都进行了良好的消融分析,甚至回顾性地尝试隔离收益来源也可能带来新的发现。此外,消融对于理解方法既不是必要条件也不是充分条件,甚至在计算约束条件下可能是不切实际的。理解也可以来自稳健性检查(如 Cotterell 等人,他们发现现有的语言模型处理屈折形态的能力很差9),以及定性错误分析。

旨在理解的实证研究即使在没有新算法的情况下也可能具有启发意义。例如,探测神经网络的行为导致识别出它们对对抗性扰动的敏感性。44 仔细研究通常还会揭示挑战数据集的局限性,同时产生更强的基线。Danqi Chen、Jason Bolton 和 Christopher Manning 在 2016 年发表的一篇论文研究了一项旨在阅读理解新闻段落的任务,发现 73% 的问题可以通过查看单个句子来回答,而只有 2% 的问题需要查看多个句子(其余 25% 的例子要么是模棱两可的,要么包含共指错误)。6 此外,更简单的神经网络和线性分类器优于之前在该任务上评估过的复杂神经架构。本着同样的精神,Rowan Zellers 等人在他们 2018 年的论文中分析并构建了 Visual Genome Scene Graphs 数据集的强大基线。45

 

数学性

在我(Zachary Lipton)博士课程早期撰写论文时,我收到了经验丰富的博士后的反馈,认为论文需要更多的公式。这位博士后并不是赞同这种体系,而是传达了对评审工作方式的清醒看法。更多的公式,即使难以理解,也往往会使审稿人相信论文的技术深度。

数学是科学交流的重要工具,在正确使用时可以传递精确性和清晰度。然而,并非所有想法和主张都适合精确的数学描述,自然语言也是交流的同样不可或缺的工具,尤其是在谈论直觉或经验性主张时。

当数学和自然语言陈述混合在一起,但没有明确说明它们之间的关系时,散文和理论都会受到影响:理论中的问题可能会被模糊的定义所掩盖,而散文中的薄弱论点可能会因技术深度的外观而得到加强。我们借用经济学家 Paul Romer 的说法,将这种形式化和非形式化主张的纠缠称为数学性,他这样描述这种模式:“像数学理论一样,数学性也使用文字和符号的混合,但它不是建立紧密的联系,而是在自然语言与形式语言之间的陈述之间留下了充足的滑动空间。”36

数学性以多种方式表现出来。首先,一些论文滥用数学来传达技术深度——为了强行通过而不是澄清。虚假的定理是常见的罪魁祸首,它们被插入论文中,以增强经验结果的权威性,即使定理的结论实际上并不支持论文的主要主张。我(Steinhardt)在 2015 年与 Percy Liang 合著的一篇论文中犯了这种错误,其中关于“分阶段强 Doeblin 链”的讨论与提出的学习算法的相关性有限,但可能会给读者带来理论深度的感觉。40

这个问题的普遍性可以通过介绍 Adam 优化器的论文来证明。19 在介绍一种具有强大实证性能的优化器的过程中,它还提供了一个关于凸情况下收敛的定理,这在侧重于非凸优化的应用论文中可能是没有必要的。后来证明该证明是错误的。35

第二个数学性问题是提出既不明确形式化也不明确非形式化的主张。例如,Yann Dauphin 等人认为,优化神经网络的困难不是源于局部最小值,而是源于鞍点。11 作为证据之一,该工作引用了 Alan Bray 和 David Dean 关于高斯随机场的统计物理学论文,并指出在高维度中,“[高斯随机场的] 所有局部最小值都可能具有非常接近全局最小值的误差。”5 (Anna Choromanska 等人的相关工作中也出现了类似的说法。7)这似乎是一个形式化的主张,但在没有具体定理的情况下,很难验证所声称的结果或确定其精确内容。我们的理解是,这在一定程度上是一个数值主张,即对于问题参数的典型设置,差距很小,而不是差距在高维度中消失的主张。形式化的陈述将有助于澄清这一点。请注意,Dauphin 等人论文中更广泛的有趣观点,即最小值往往比鞍点具有更低的损失,则更清楚地陈述并经过了实证检验。

最后,一些论文过度宽泛地引用理论,或对定理进行与主题相关性可疑的顺便提及。例如,无免费午餐定理通常被用作使用没有保证的启发式方法的理由,即使该定理并没有正式排除有保证的学习程序。

虽然避免数学性是最好的补救方法,但一些论文通过示例性的阐述更进一步。Léon Bottou 等人在 2013 年发表的一篇关于反事实推理的论文以平易近人的方式涵盖了大量的数学基础,并与应用的实证问题有许多清晰的联系。4 这篇教程以清晰地服务于读者的宗旨撰写,帮助激发了新兴社区对机器学习反事实推理的研究。

 

误用语言

机器学习中误用语言有三个常见途径:暗示性定义、术语超载和手提箱词。

 

暗示性定义

在第一种途径中,创造了一个新的技术术语,该术语具有暗示性的口语含义,从而在不需要论证的情况下偷偷引入了内涵。这通常体现在对任务(阅读理解音乐创作)和技术(好奇心恐惧——我(Zachary)对后者负责)的人格化描述中。许多论文以暗示人类认知的风格命名提出的模型的组件(例如,思想向量意识先验)。我们的目标不是从学术文献中消除所有此类语言;当适当地限定时,这些联系可能会传达富有成效的灵感来源。然而,当一个暗示性术语被赋予技术含义时,随后的每篇论文都别无选择,只能通过接受该术语或替换它来混淆读者。

使用“人类水平”性能的宽松声明来描述实证结果也可能描绘出当前能力的虚假印象。以 Andre Esteva 等人在 2017 年发表的论文中报告的“皮肤癌的皮肤科医生水平分类”为例。12 与皮肤科医生的比较掩盖了分类器和皮肤科医生执行的任务根本不同的事实。真正的皮肤科医生会遇到各种各样的情况,并且必须在不可预测的变化下执行他们的工作。然而,机器分类器仅在 IID(独立同分布)测试数据上实现低错误率。

相比之下,何恺明等人16 在工作中对人类水平性能的声明进行了更好的限定,以指代 ImageNet 分类任务(而不是更广泛的物体识别)。即使在这种情况下,一篇谨慎的论文(在许多不太谨慎的论文中)也不足以将公众讨论拉回正轨。流行文章继续将现代图像分类器描述为“超越人类能力,并有效地证明更大的数据导致更好的决策”,正如 Dave Gershgorn13 所解释的那样,尽管有证据表明这些网络依赖于虚假的相关性(例如,将“穿着红色衣服的亚洲人”错误分类为乒乓球,Pierre Stock 和 Moustapha Cisse43 报告)。

深度学习论文并非唯一的罪魁祸首;语言的误用困扰着机器学习的许多子领域。Zachary Lipton、Alexandra Chouldechova 和 Julian McAuley 讨论了最近关于机器学习公平性的文献如何经常超载从复杂的法律理论中借用的术语,例如差异性影响,来命名表达特定统计均等概念的简单方程。23 这导致了这样一种文献,其中“公平性”、“机会”和“歧视”表示预测模型的简单统计数据,这使研究人员对差异变得视而不见,并使政策制定者对将伦理要求纳入机器学习的容易程度产生误解。

 

术语超载

误用语言的第二种途径包括采用一个具有精确技术含义的术语,并以不精确或矛盾的方式使用它。考虑反卷积的情况,它正式描述了反转卷积的过程,但现在在深度学习文献中用于指代转置卷积(也称为上卷积),这在自编码器和生成对抗网络中很常见。这个术语首先在深度学习中扎根于一篇确实讨论了反卷积的论文,但后来被过度概括为指代任何使用上卷积的神经架构。这种术语超载会造成持久的混乱。新的机器学习论文中提到反卷积可能(1)调用其原始含义,(2)描述上卷积,或(3)试图解决混乱,正如 Caner Hazirbas、Laura Leal-Taixé 和 Daniel Cremers15 的一篇论文中所做的那样,该论文笨拙地提到了“上卷积(反卷积)”。

再举一个例子,生成模型传统上是输入分布 p(x) 或联合分布 p(x,y) 的模型。相比之下,判别模型处理给定输入的标签的条件分布 p(y | x)。然而,在最近的工作中,生成模型不精确地指代任何产生看起来逼真的结构化数据的模型。从表面上看,这似乎与 p(x) 定义一致,但它掩盖了一些缺点——例如,GAN(生成对抗网络)或 VAE(变分自编码器)无法执行条件推理(例如,从 p(x2 | x1) 中采样,其中 x1x2 是两个不同的输入特征)。进一步弯曲这个术语,一些判别模型现在由于产生结构化输出而被认为是生成模型,我(Lipton)也犯了这个错误。为了解决混乱并提供历史背景,Shakir Mohamed 和 Balaji Lakshminarayanan 区分了规定的生成模型和隐式的生成模型。30

回到批量归一化,Sergey Ioffe 和 Christian Szegedy 将协变量偏移描述为模型输入分布的变化。18 事实上,协变量偏移指的是一种特定类型的偏移,其中尽管输入分布 p(x) 可能会改变,但标签函数 p(y|x) 不会改变。此外,由于 Ioffe 和 Szegedy 的影响,Google Scholar 将批量归一化列为搜索“协变量偏移”的第一个参考文献。

误用语言的后果之一是可能(如生成模型的情况)通过重新定义未解决的任务以指代更容易的事情来掩盖缺乏进展。这通常与通过人格化命名进行的暗示性定义相结合。语言理解阅读理解,曾经是人工智能的宏伟挑战,现在指的是在特定数据集上做出准确的预测。

 

手提箱词

最后,机器学习论文倾向于过度使用手提箱词。手提箱词是 Marvin Minsky 在 2007 年出版的情感机器一书中创造的,29 它将各种含义打包在一起。明斯基描述了诸如意识、思维、注意力、情感和感觉等心理过程,这些过程可能不共享“单一的原因或起源”。机器学习中的许多术语都属于这一类。例如,我(Lipton)在 2016 年的一篇论文中指出,可解释性没有普遍认可的含义,并且经常引用不相交的方法和要求。22 因此,即使是看起来彼此对话的论文也可能有不同的概念在脑海中。

再举一个例子,泛化既有特定的技术含义(从训练泛化到测试),也有更口语化的含义,更接近于迁移的概念(从一个群体泛化到另一个群体)或外部有效性的概念(从实验设置泛化到现实世界)。混淆这些概念会导致高估当前系统的能力。

暗示性定义和术语超载会促成新手提箱词的创建。在公平性文献中,法律、哲学和统计语言经常被超载,诸如偏见之类的术语变成了手提箱词,必须随后解开。

在日常口语中以及作为有抱负的术语,手提箱词可以发挥有用的作用。有时,手提箱词可能反映了统一各种含义的总体愿望。例如,人工智能可能非常适合作为组织学术部门的有抱负的名称。另一方面,在技术论证中使用手提箱词可能会导致混乱。例如,Nick Bostrom 在他 2017 年出版的超智能一书中写了一个涉及术语智能优化能力的方程式(方框 4),隐含地假设这些手提箱词可以用一维标量来量化。3

对趋势背后原因的推测

上述模式是否代表一种趋势?如果是,那么潜在原因是什么?我们推测这些模式正在上升,并怀疑有几个可能的因果因素:面对进步的自满情绪、社区的快速扩张、随之而来的审稿人库的稀薄,以及学术研究与短期成功衡量标准之间错位的激励机制。

 

面对进步的自满情绪

机器学习中明显的快速进步有时会产生一种态度,即强大的结果可以为薄弱的论证辩护。具有强大结果的作者可能会感到有权插入关于驱动结果的因素的任意不受支持的故事(参见本文前面的“解释与推测”);省略旨在理清这些因素的实验(参见“未能识别实证收益的来源”);采用夸张的术语(参见“误用语言”);或减少避免数学性的努力(参见“数学性”)。

与此同时,评审过程的单轮性质可能会导致审稿人感到他们别无选择,只能接受具有强大定量发现的论文。事实上,即使论文被拒绝,也不能保证缺陷会在下一个周期中得到修复甚至被注意到,因此审稿人可能会得出结论,接受有缺陷的论文是最佳选择。

 

成长的烦恼

自 2012 年左右以来,由于深度学习方法的成功带来的普及,机器学习社区迅速扩张。虽然社区的快速扩张可以被视为积极的发展,但它也可能产生副作用。

为了保护年轻作者,我们优先引用了自己的论文和已建立的研究人员的论文。当然,经验丰富的研究人员也表现出这些模式。然而,较新的研究人员可能更容易受到影响。例如,不熟悉先前术语的作者更可能误用或重新定义语言(参见“误用语言”)。

快速增长也可能通过两种方式稀释审稿人库:增加提交论文与审稿人的比例,以及减少经验丰富的审稿人的比例。经验不足的审稿人可能更倾向于要求架构创新,被虚假的定理所迷惑,并放过诸如误用语言之类的严重但微妙的问题,从而激励或促成此处描述的几种趋势。与此同时,经验丰富但负担过重的审稿人可能会恢复到“清单”心态,奖励更公式化的论文,而牺牲可能不符合先入为主的模板的更具创造性或智力雄心的工作。此外,工作过度的审稿人可能没有足够的时间来修复——甚至注意到——提交论文中的所有问题。

 

错位的激励机制

不仅仅是审稿人为作者提供了不良激励。随着机器学习研究获得越来越多的媒体关注,机器学习创业公司变得司空见惯,在某种程度上,激励来自媒体(“他们会写什么?”)和投资者(“他们会投资什么?”)。媒体为其中的一些趋势提供了激励。

对机器学习算法的人格化描述为大众报道提供了素材。以 Cade Metz 在 2014 年在Wired杂志上发表的一篇文章为例,28 该文章将自编码器描述为“模拟大脑”。人类水平性能的暗示往往在报纸报道中被耸人听闻——例如,John Markoff 在纽约时报上发表的一篇文章将深度学习图像字幕系统描述为“模仿人类水平的理解”。25

投资者也对人工智能研究表现出浓厚的兴趣,有时仅凭一篇论文就为初创公司提供资金。根据我(Lipton)与投资者合作的经验,他们有时会被那些研究成果获得媒体报道的初创公司所吸引,这种动态将经济激励与媒体关注联系起来。请注意,最近对聊天机器人初创公司的兴趣与论文和媒体中对对话系统和强化学习器的拟人化描述同时出现,尽管可能难以确定学术上的疏忽是否引起了投资者的兴趣,反之亦然。

 

建议

假设我们要干预以应对这些趋势,那么该怎么做?除了仅仅建议每位作者避免这些模式外,作为一个社区,我们还能做些什么来提高实验实践、阐述和理论水平?我们如何更轻松地提炼社区的知识,并消除研究人员和广大公众的误解?以下是一些基于个人经验和印象的初步建议。

 

对于作者

我们鼓励作者提问“什么有效?”和“为什么?”,而不仅仅是“效果如何?” 除非在特殊情况下,否则在缺乏对驱动因素的洞察力的情况下,原始的头条数字对科学进步的价值有限。洞察力不一定意味着理论。在最优秀的实证论文中常见的三个实践是错误分析、消融研究和稳健性检查(例如,超参数的选择,以及理想情况下数据集的选择)。这些实践可以被所有人采用,我们提倡它们的广泛使用。对于一些范例论文,请考虑前面“未能识别实证收益来源”中的讨论。Pat Langley 和 Dennis Kibler 也对实证最佳实践进行了更详细的调查。21

健全的实证研究不必局限于追踪特定算法实证收益的来源;即使没有提出新算法,它也能产生新的见解。值得注意的例子包括证明通过随机梯度下降训练的神经网络可以拟合随机分配的标签。46 这篇论文质疑学习理论中模型复杂性的概念解释神经网络为何能够推广到未见过的数据的能力。在另一个例子中,Ian J. Goodfellow、Oriol Vinyals 和 Andrew M. Saxe 探索了深度网络的损失曲面,揭示了初始化参数和学习参数之间参数空间中的直线路径通常具有单调递减的损失。14

当研究人员撰写论文时,我们建议他们问以下问题:我是否会依赖这种解释来进行预测或使系统正常工作? 这可以很好地检验定理的纳入是为了取悦审稿人还是为了传达实际的见解。它还有助于检查概念和解释是否与研究人员自己的内部心智模型相符。关于数学写作,我们将读者指向 Donald E. Knuth、Tracy Larrabee 和 Paul M. Roberts 的优秀指南《Mathematical Writing》。20

最后,清楚地说明哪些问题是开放的,哪些问题已解决,不仅可以向读者呈现更清晰的画面,还可以鼓励后续工作,并防止研究人员忽视被(错误地)认为已解决的问题。

 

对于出版商和审稿人

审稿人可以通过提问来设定更好的激励机制:“如果作者做得更差,我可能会接受这篇论文吗?” 例如,一篇描述一个简单想法并带来性能提升的论文,以及两个负面结果,应该比一篇将三个想法组合在一起(没有消融研究)但产生相同改进的论文更受好评。

当前的文献以牺牲接受有缺陷的作品用于会议出版为代价,进展迅速。一种补救措施可能是强调权威的回顾性综述,这些综述剔除夸大的声明和无关的材料,将拟人化的名称更改为冷静的替代方案,标准化符号等等。虽然《Foundations and Trends in Machine Learning》(麻萨诸塞州汉诺威 Now Publishers 出版的期刊)等场所已经为这类工作提供了渠道,但这类体裁的优秀论文仍然不够。

此外,我们认为(注意到我们的利益冲突)批判性写作应该在机器学习会议上占有一席之地。典型的机器学习会议论文选择一个已确立的问题(或提出一个新的问题),展示一种算法和/或分析,并报告实验结果。虽然许多问题可以用这种方式来解决,但在解决问题或探究方法本身的有效性时,算法和实验都不足够(或不合适)。在拥抱更广泛的批判性讨论方面,我们并非孤军奋战:在自然语言处理 (NLP) 领域,今年的 COLING(计算语言学会议)包括征集“挑战传统思维”的立场论文。

关于同行评审,还有许多值得进一步讨论的方向。此处描述的问题是否因开放评审而得到缓解或加剧?审稿人积分系统如何与我们提倡的价值观保持一致?这些主题值得单独撰写论文,并且实际上已在其他地方进行了详细讨论。

 

讨论

民间智慧可能会建议不要在领域正在升温时进行干预——你无法与成功争辩!我们用以下论点来反驳这些反对意见:首先,当前文化的许多方面是机器学习近期成功结果,而不是其原因。事实上,许多导致深度学习当前成功的论文都是仔细的实证研究,描述了训练深度网络的原则。这包括随机超参数搜索优于顺序超参数搜索、不同激活函数的行为以及对无监督预训练的理解。

其次,有缺陷的学术研究已经对研究界和更广泛的公共话语产生了负面影响。本文的“令人不安的趋势”部分给出了未经证实的声明被引用数千次、所谓的改进谱系被简单的基线推翻、看起来测试高级语义推理但实际上测试低级句法流畅性的数据集以及混淆学术对话的术语混淆的例子。最后一个问题也影响了公共话语。例如,欧洲议会通过了一份报告,考虑如果“机器人变得或被制造成自我意识”10,则适用相关法规。虽然机器学习研究人员不对我们工作的全部误传负责,但权威同行评审论文中的拟人化语言似乎至少是部分原因。

更严谨的阐述、科学和理论对于科学进步和促进与更广泛公众的富有成效的对话至关重要。此外,随着从业者在医疗保健、法律和自动驾驶等关键领域应用机器学习,对机器学习系统的能力和局限性进行校准的认识将有助于我们负责任地部署机器学习。

 

抵消性考虑

对于本文中提出的建议,存在许多抵消性考虑因素。本文早期草稿的几位读者指出,随机梯度下降往往比梯度下降收敛更快——换句话说,也许更快、更嘈杂的过程,忽略了我们关于制作“更干净”论文的指南,会导致更快的研究节奏。例如,关于 ImageNet 分类的突破性论文提出了多种技术,但没有消融研究,其中一些技术后来被确定为不必要的。然而,当时,结果非常重要,实验的计算成本非常高昂,以至于等待消融完成可能不值得社区付出的代价。

相关的担忧是,高标准可能会阻碍原创想法的发表,而原创想法更有可能是非同寻常的和推测性的。在经济学等其他领域,高标准导致一篇论文的出版过程可能需要数年时间,漫长的修改周期消耗了本可以用于新工作的资源。

最后,也许专业化是有价值的:产生新概念想法或构建新系统的研究人员不必与仔细整理和提炼知识的研究人员是同一批人。

这些都是有效的考虑因素,我们在此提出的标准有时是严格的。然而,在许多情况下,它们很容易实施,只需要几天额外的实验和更仔细的写作。此外,它们被呈现为强启发式方法,而不是不可打破的规则——如果一个想法在不违反这些启发式方法的情况下无法分享,则应该分享该想法并将启发式方法放在一边。

我们几乎总是发现,尝试遵守这些标准是非常值得的。简而言之,研究界在增长质量前沿尚未实现帕累托最优状态。

 

历史先例

此处讨论的问题并非机器学习独有,也并非此时此刻独有;相反,它们反映了在整个学术界周期性地重复出现的问题。早在 1964 年,物理学家 John R. Platt 就曾在其关于强推理的论文中讨论过相关问题,他在论文中指出,坚持特定的实证标准是分子生物学和高能物理学相对于其他科学领域取得快速进展的原因。34

人工智能领域也进行过类似的讨论。正如本文引言中指出的那样,Drew McDermott 在 1976 年批评了一个(主要是前机器学习)人工智能社区,原因包括暗示性定义以及未能将推测与技术声明区分开来等问题。26 1988 年,Paul Cohen 和 Adele Howe 指出了当时的人工智能社区“很少发表对其提出的算法的性能评估”,而只是描述了系统。8 他们建议建立合理的指标来量化进展,并分析以下问题:“为什么它有效?”、“在什么情况下它会失效?”以及“设计决策是否合理?”——这些问题在今天仍然引起共鸣。

最后,在 2009 年,Timothy G. Armstrong 及其合作者讨论了信息检索研究的实证严谨性,指出论文倾向于与相同的弱基线进行比较,从而产生了一系列并未累积为有意义收益的改进。1

在其他领域,学术水平不受约束的下降导致了危机。2015 年的一项里程碑式研究表明,心理学文献中的很大一部分发现可能无法重现。33 在少数历史案例中,热情与缺乏纪律的学术研究相结合,导致整个社区走上了死胡同。例如,在 X 射线被发现之后,出现了一个相关的 N 射线学科,但最终被揭穿。32

 

结论性评论

读者可能会正确地建议这些问题会自行纠正。我们同意。然而,社区正是通过反复辩论什么构成合理的学术标准来自我纠正的。我们希望本文能为讨论做出建设性的贡献。

 

致谢

我们感谢许多研究人员、同事和朋友慷慨地分享了对本草案的反馈,包括 Asya Bergal、Kyunghyun Cho、Moustapha Cisse、Daniel Dewey、Danny Hernandez、Charles Elkan、Ian Goodfellow、Moritz Hardt、Tatsunori Hashimoto、Sergey Ioffe、Sham Kakade、David Kale、Holden Karnofsky、Pang Wei Koh、Lisha Li、Percy Liang、Julian McAuley、Robert Nishihara、Noah Smith、Balakrishnan "Murali" Narayanaswamy、Ali Rahimi、Christopher Ré 和 Byron Wallace。我们还要感谢 ICML 辩论组织者提供机会来撰写本草案,并感谢他们在我们整个修订过程中的耐心。

 

参考文献

1. Armstrong, T. G., Moffat, A., Webber, W., Zobel, J. 2009. Improvements that don't add up: ad-hoc retrieval results since 1998. In Proceedings of the 18th Conference on Information and Knowledge Management, 601-610.

2. Bengio, Y. 2012. Practical recommendations for gradient-based training of deep architectures. In Neural Networks: Tricks of the Trade, ed. G. Montavon, G. B. Orr, KR Müller, 437-78. Lecture Notes in Computer Science 7700. Springer, Berlin, Heidelberg.

3. Bostrom, N. 2017. Superintelligence. Paris: Dunod.

4. Bottou, L., Peters, J., Quiñonero-Candela, J., Charles, D.X., Chickering, D. M., Portugaly, E., Ray, D., Simard, P., Snelson, E. 2013. Counterfactual reasoning and learning systems: the example of computational advertising. The Journal of Machine Learning Research 14(1), 3207—3260.

5. Bray, A. J., Dean, D. S. 2007. Statistics of critical points of Gaussian fields on large-dimensional spaces. Physical Review Letters 98(15), 150201; https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.150201.

6. Chen, D., Bolton, J., Manning, C. D. 2016. A thorough examination of the CNN/Daily Mail reading comprehension task. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2358—2367.

7. Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B., LeCun, Y. 2015. The loss surfaces of multilayer networks. In Proceedings of the 18th International Conference on Artificial Intelligence and Statistics.

8. Cohen, P. R., Howe, A. E. 1988. How evaluation guides AI research: the message still counts more than the medium. AI Magazine 9(4), 35.

9. Cotterell, R., Mielke, S. J., Eisner, J., Roark, B. 2018. Are all languages equally hard to language-model? In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2.

10. Council of the European Union. 2016. Motion for a European Parliament Resolution with Recommendations to the Commission on Civil Law Rules on Robotics; http://www.europarl.europa.eu/sides/getDoc.do?pubRef=-//EP//NONSGML%2BCOMPARL%2BPE-582.443%2B01%2BDOC%2BPDF%2BV0//EN.

11. Dauphin, Y. N., Pascanu, R., Gulcehre, C., Cho, K., Ganguli, S., Bengio, Y. 2014. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization. In Advances in Neural Information Processing Systems, 2933—2941.

12. Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., Thrun, S. 2017. Dermatologist-level classification of skin cancer with deep neural networks. Nature 542(7639), 115-118.

13. Gershgorn, D. 2017. The data that transformed AI research—and possibly the world. Quartz; https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/.

14. Goodfellow, I. J., Vinyals, O., Saxe, A. M. 2015. Qualitatively characterizing neural network optimization problems. In Proceedings of the International Conference on Learning Representations.

15. Hazirbas, C., Leal-Taixé, L. Cremers, D. 2017. Deep depth from focus. arXiv Preprint arXiv:1704.01085.

16. He, K., Zhang, X., Ren, S., Sun, J. 2015. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification. In Proceedings of the IEEE International Conference on Computer Vision, 1026-1034.

17. Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., Meger, D. 2018. Deep reinforcement learning that matters. In Proceedings of the 32nd Association for the Advancement of Artificial Intelligence Conference.

18. Ioffe, S. Szegedy, C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift. In Proceedings of the 32nd International Conference on Machine Learning 37; http://proceedings.mlr.press/v37/ioffe15.pdf.

19. Kingma, D. P., Ba, J. 2015. Adam: a method for stochastic optimization. In Proceedings of the 3rd International Conference on Learning Representations.

20. Knuth, D. E., Larrabee, T., Roberts, P. M. 1987. Mathematical writing; http://jmlr.csail.mit.edu/reviewing-papers/knuth_mathematical_writing.pdf.

21. Langley, P., Kibler, D. 1991. The experimental study of machine learning; http://www.isle.org/~langley/papers/mlexp.ps.

22. Lipton, Z. C. 2016. The mythos of model interpretability. International Conference on Machine Learning Workshop on Human Interpretability.

23. Lipton, Z. C., Chouldechova, A., McAuley, J. 2017. Does mitigating ML's impact disparity require treatment disparity? In Advances in Neural Information Processing Systems, 8136-8146. arXiv Preprint arXiv:1711.07076.

24. Lucic, M., Kurach, K., Michalski, M., Gelly, S., Bousquet, O. 2017. Are GANs created equal? A large-scale study. In Proceedings of the 32nd Conference on Neural Information Processing Systems. arXiv Preprint arXiv:1711.10337.

25. Markoff, J. 2014. Researchers announce advance in image-recognition software. New York Times (November 17); https://www.nytimes.com/2014/11/18/science/researchers-announce-breakthrough-in-content-recognition-software.html.

26. McDermott, D. 1976. Artificial intelligence meets natural stupidity. SIGART Bulletin 57, 4—9.

27. Melis, G., Dyer, C., Blunsom, P. 2018. On the state of the art of evaluation in neural language models. In Proceedings of the International Conference on Learning Representations.

28. Metz, C. 2014. You don't have to be Google to build an artificial brain. Wired (September 26); https://www.wired.com/2014/09/google-artificial-brain/.

29. Minsky, M. 2006. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. New York: Simon & Schuster.

30. Mohamed, S., Lakshminarayanan, B. 2016. Learning in implicit generative models. arXiv Preprint arXiv:1610.03483.

31. Noh, H., Hong, S., Han, B. 2015. Learning deconvolution network for semantic segmentation. In Proceedings of the International Conference on Computer Vision, 1520-1528.

32. Nye, M. J. 1980. N-rays: an episode in the history and psychology of science. Historical Studies in the Physical Sciences 11(1), 125—56.

33. Open Science Collaboration. 2015. Estimating the reproducibility of psychological science. Science 349 (6251): aac4716.

34. Platt, J. R. 1964. Strong inference. Science 146 (3642), 347-353.

35. Reddi, S. J., Kale, S., Kumar, S. 2018. On the convergence of Adam and beyond. In Proceedings of the International Conference on Learning Representations.

36. Romer, P. M. 2015. Mathiness in the theory of economic growth. American Economic Review 105(5), 89—93.

37. Santurkar, S., Tsipras, D., Ilyas, A., Madry, A. 2018. How does batch normalization help optimization? (No, it is not about internal covariate shift). In Proceedings of the 32nd Conference on Neural Information Processing Systems; https://papers.nips.cc/paper/7515-how-does-batch-normalization-help-optimization.pdf.

38. Sculley, D., Snoek, J., Wiltschko, A., Rahimi, A. 2018. Winner's curse? On pace, progress, and empirical rigor. In Proceedings of the 6th International Conference on Learning Representations, Workshop Track.

39. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. 2014. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research 15(1), 1929—1958; https://dl.acm.org/citation.cfm?id=2670313.

40. Steinhardt, J., Liang, P. 2015. Learning fast-mixing models for structured prediction. In Proceedings of the 32nd International Conference on Machine Learning 37, 1063—1072; http://proceedings.mlr.press/v37/steinhardtb15.html.

41. Steinhardt, J., Liang, P. 2015. Reified context models. In Proceedings of the 32nd International Conference on Machine Learning 37, 1043-1052; https://dl.acm.org/citation.cfm?id=3045230.

42. Steinhardt, J., Koh, P. W., Liang, P. S. 2017. Certified defenses for data poisoning attacks. In Proceedings of the 31st Conference on Neural Information Processing Systems; https://papers.nips.cc/paper/6943-certified-defenses-for-data-poisoning-attacks.pdf.

43. Stock, P., Cisse, M. 2017. ConvNets and ImageNet beyond accuracy: explanations, bias detection, adversarial examples and model criticism. arXiv Preprint arXiv:1711.11443.

44. Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R. 2013. Intriguing properties of neural networks. International Conference on Learning Representations. arXiv Preprint arXiv:1312.6199.

45. Zellers, R., Yatskar, M., Thomson, S. Choi, Y. 2018. Neural motifs: scene graph parsing with global context. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5831-5840.

46. Zhang, C., Bengio, S., Hardt, M., Recht, B., Vinyals, O. 2017. Understanding deep learning requires rethinking generalization. In Proceedings of the International Conference on Learning Representations.

 

Zachary C. Lipton 是卡内基梅隆大学泰珀商学院的助理教授,并在机器学习系和海因茨公共政策学院任职。他还与亚马逊密切合作,在他攻读博士学位的最后一年,他帮助 AWS 的 Amazon AI 团队发展壮大成为一个大型应用研究组织,并为 Apache MXNet 深度学习框架做出了贡献。他的工作旨在解决机器学习 (ML) 的核心技术挑战和实际应用,重点关注 ML 系统的稳健性、医疗保健应用以及已部署算法的真实世界行为和社会影响。他是 Approximately Correct 博客的创始编辑,也是 Dive into Deep Learning 的作者,这是一本通过 Jupyter 笔记本教授深度学习的交互式开源书籍。在网络上找到他 (zacklipton.com)、Twitter (@zacharylipton) 或 GitHub (@zackchase)。

Jacob Steinhardt 最近在斯坦福大学完成了博士学位,并将加入加州大学伯克利分校担任统计学助理教授。他的研究重点是为机器学习系统变得可靠并与人类价值观保持一致做出必要的概念性进步。他还与政策研究人员合作,以了解和避免机器学习的潜在误用,并且是开放慈善项目的技术顾问。

版权所有 © 2019 归所有者/作者所有。出版权已许可给 。

acmqueue

最初发表于 Queue vol. 17, no. 1
数字图书馆 中评论本文





更多相关文章

Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
LLM 容易产生幻觉、提示注入和越狱,这对它们的广泛采用和负责任的使用构成了重大但可以克服的挑战。我们认为这些问题是固有的,当然在当前这一代模型中是这样,并且可能在 LLM 本身中也是如此,因此我们的方法永远不能基于消除它们;相反,我们应该应用“深度防御”策略来缓解它们,并且在构建和使用这些系统时,要假设它们有时会在这些方面失败。


Sonja Johnson-Yu, Sanket Shah - 你对人工智能一窍不通
长期以来,很难确定人工智能到底是什么。几年前,此类讨论会演变成长达数小时的会议,在会上绘制维恩图并试图绘制出人工智能的不同子领域。快进到 2024 年,我们现在都知道人工智能到底是什么了。人工智能 = ChatGPT。或者不是。


Jim Waldo, Soline Boussard - GPT 和幻觉
本实验中的发现支持以下假设:基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示下表现良好,但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调,模型依赖于其训练数据的数量和质量,这与依赖于多样化和可信贡献的众包系统类似。因此,虽然 GPT 可以作为许多日常任务的有用工具,但应谨慎解释它们对晦涩和两极分化主题的参与。


Erik Meijer - 虚拟阴谋:使用大型语言模型作为神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以充当数据库,还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明性语言,它将思维链推理形式化和外部化,就像它可能发生在大型语言模型内部一样。





© 保留所有权利。

© . All rights reserved.