AI

RSS

排序方式

醉酒的抄袭者
与副驾驶协同工作

在使用这些工具之前，您需要至少从表面上理解它们的作用，因为即使它们的创造者也自由承认他们不理解它们是如何在从当前互联网上抓取的所有统计数据和文本的深处工作的。 LLM 的诀窍是使用一点随机性和大量文本来高斯化句子中的下一个词。这看起来有点微不足道，真的，当然不是任何理解这个词的人可能会使用的智能衡量标准。

作者：George V. Neville-Neil | 2025 年 1 月 23 日

智能的代价
LLM 中固有的三个风险

LLM 容易出现幻觉、提示注入和越狱，这对它们的广泛采用和负责任的使用构成了重大但可克服的挑战。我们认为这些问题是固有的，当然在当前一代模型中是这样，可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“纵深防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方向上失败。

作者：Mark Russinovich、Ahmed Salem、Santiago Zanella-Béguelin、Yonatan Zunger | 2025 年 1 月 20 日

你对 AI 一窍不通
ChatGPT 可能也不懂

长期以来，很难确定 AI 究竟是什么。几年前，这样的讨论会演变成长达数小时的会议，勾勒出维恩图，并试图绘制出 AI 的不同子领域。快进到 2024 年，我们现在都知道 AI 究竟是什么。AI = ChatGPT。或者不是。

作者：Sonja Johnson-Yu、Sanket Shah | 2024 年 12 月 2 日

GPT 和幻觉
为什么大型语言模型会产生幻觉？

这项实验的发现支持以下假设：基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上则表现不佳。应用程序响应的可变性强调了模型依赖于其训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统类似。因此，虽然 GPT 可以作为许多日常任务的有用工具，但应谨慎解读它们对晦涩和两极分化主题的参与。

作者：Jim Waldo、Soline Boussard | 2024 年 9 月 9 日

虚拟阴谋：将大型语言模型用作神经计算机
LLM 不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。

我们探讨了大型语言模型 (LLM) 如何不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言，它形式化和外部化了思维链推理，因为它可能发生在一个大型语言模型内部。

作者：Erik Meijer | 2024 年 7 月 19 日

迈向有效的 AI 开发者支持
对愿望和担忧的调查

将 AI 集成到软件工程师日常生活中并非没有挑战。然而，它有望在开发者如何将他们的创造性愿景转化为有形解决方案方面发生变革性转变。正如我们所见，GitHub Copilot 等 AI 工具已经在重塑代码编写体验，使开发者能够提高工作效率，并将更多时间用于创造性和复杂任务。围绕 AI 的怀疑态度，从对工作安全的担忧到其实际功效，都强调需要采取一种平衡的方法，优先考虑透明度、教育和伦理考量。

作者：Mansi Khemka、Brian Houck | 2024 年 7 月 10 日

解决机器学习众包工作者的受试者身份问题
什么伦理框架应规范机器学习研究人员和众包工作者之间的互动？

近年来，机器学习 (ML) 在构建数据集和解决需要人机交互或判断的研究问题方面都严重依赖众包工作者。任务的多样性以及结果数据的用途使得难以确定何时最好将众包工作者视为工作者而非人类受试者。冲突的政策加剧了这些困难，一些机构和研究人员将所有 ML 众包工作者视为人类受试者，而另一些人则认为他们很少构成人类受试者。值得注意的是，很少有涉及众包工作的 ML 论文提及 IRB 监督，这引发了不遵守伦理和监管要求的可能性。

作者：Divyansh Kaushik、Zachary C. Lipton、Alex John London | 2024 年 1 月 14 日

还有另一个系统吗？
计算机科学是对可以自动化的事物的研究。

确定您是否处于风险之中的最简单测试之一是认真审视您每天所做的事情，看看您自己是否可以将自己编写代码而失业。编程涉及大量重复性工作：模板、样板等等。如果您能看到一种编写系统来取代自己的方法，要么这样做，要么不要告诉您的老板，然后在您的小隔间里阅读小说时领取工资，要么寻找更具挑战性的工作。

作者：George V. Neville-Neil | 2024 年 1 月 12 日

改进深度学习系统的测试
差异测试和变异测试的结合可以产生更好的测试数据。

我们使用差异测试来生成测试数据，以提高测试数据集中数据点的多样性，然后使用变异测试来检查测试数据在多样性方面的质量。以这种方式结合差异测试和变异测试可以提高变异分数（一种测试数据质量指标），表明在测试深度学习系统时，测试有效性和测试数据质量的整体提高。

作者：Harsh Deokuliar、Raghvinder S. Sangwan、Youakim Badr、Satish M. Srinivasan | 2023 年 11 月 30 日

智能的回声
文本解释和大型语言模型

我们现在正处于一种伪装成旧文本的新媒介面前，但该文本是由 LLM 生成的，没有作者意图——如果事先知道这一点，人类对一段文本的期望和反应就会完全改变。我们的解释能力应该被启用吗？如果启用，在什么条件下？语言游戏的规则应该明确说明；它们不应被沉默地忽略。

作者：Alvaro Videla | 2023 年 6 月 27 日

货物崇拜 AI
科学思考能力是智能的本质吗？

大量证据表明，人脑并非天生具有科学思考能力；然而，它可以被教导这样做。围绕对不明飞行物、ESP 以及在社交媒体上阅读的任何内容的广泛且毫无根据的信念形成货物崇拜的同一物种也产生了萨根和费曼等科学巨匠。今天的尖端 LLM 也并非天生具有科学性。但与人脑不同，有充分的理由相信它们永远不会具有科学性，除非开发出新的算法范式。

作者：Edlyn V. Levine | 2023 年 5 月 11 日

设计会话界面框架
将机器学习的最新进展与早期方法相结合

在可能的情况下，业务逻辑应通过代码而不是训练数据来描述。这使我们系统的行为保持原则性、可预测性和易于更改。我们处理会话界面的方法允许像构建任何其他应用程序一样构建它们，使用熟悉的工具、约定和流程，同时仍然利用尖端的机器学习技术。

作者：Zachary Tellman | 2023 年 4 月 7 日

使用 Copilot 起飞
AI 驱动的结对编程工具的早期见解和机遇

在未来五年内，AI 驱动的工具可能会在许多不同的任务中帮助开发者。例如，此类模型可用于改进代码审查，指导审查人员查看最需要审查的更改部分，甚至直接提供有关更改的反馈。 Codex 等模型可能会建议修复代码缺陷、构建失败或测试失败。这些模型能够自动编写测试，有助于提高代码质量和分布式系统的下游可靠性。对 Copilot 的这项研究表明，开发者花费更多的时间审查代码，而不是实际编写代码。

作者：Christian Bird、Denae Ford、Thomas Zimmermann、Nicole Forsgren、Eirini Kalliamvakou、Travis Lowdermilk、Idan Gazit | 2023 年 1 月 26 日

蒸汽朋克机器学习
维多利亚时代的装置用于现代数据科学

将模型拟合到数据如今非常流行，但长期以来一直是工程师的一项基本技能。资深人士知道，现实世界的系统通过将例行操作条件与超载和故障发作交织在一起，从而破坏了教科书技术；为了实用，一种方法必须对前者进行建模，而不会因后者而失真。令人惊讶的有效帮助来自一个不太可能的方面：一种简单直观的模型拟合方法，它早于巴贝奇引擎。作为生产数据中心工业级决策支持和异常检测的基础，这种方法无需人工干预或大惊小怪即可产生准确但易于理解的模型。

作者：Terence Kelly | 2022 年 1 月 18 日

可解释的机器学习
从神话到诊断

在过去十年中，机器学习作为一种改变社会的技术的出现引发了人们对无法理解日益复杂的模型的推理的担忧。 IML（可解释的机器学习）领域正是出于这些担忧而发展起来的，其目标是使各种利益相关者能够解决用例，例如建立对模型的信任、执行模型调试以及普遍告知真实的人类决策。

作者：Valerie Chen、Jeffrey Li、Joon Sik Kim、Gregory Plumb、Ameet Talwalkar | 2022 年 1 月 12 日

声明式机器学习系统
机器学习的未来将取决于它掌握在我们其余人手中。

现在训练和使用 ML 模型的人通常是拥有多年学习经验的开发人员，他们在大型组织内工作，但下一波 ML 系统应该允许更多数量的人，可能没有任何编码技能，来执行相同的任务。这些新的 ML 系统将不需要用户完全理解模型如何训练和用于获得预测的所有细节，而是将为他们提供一个更抽象的界面，该界面要求更低且更熟悉。

作者：Piero Molino、Christopher Ré | 2021 年 8 月 2 日

AI 系统中的偏见
从业者调查

本文提供了对 AI 管道中可能发生的各种偏见的组织，从数据集创建和问题制定到数据分析和评估。它强调了与偏见缓解策略设计相关的挑战，并概述了研究人员提出的一些最佳实践。最后，提出了一组指南，可以帮助 ML 开发者识别潜在的偏见来源，并避免引入不必要的偏见。这项工作旨在作为 ML 开发者处理和解决 AI 系统中与偏见相关问题的教育资源。

作者：Ramya Srinivasan、Ajay Chander | 2021 年 5 月 12 日

将机器学习投入生产系统
机器学习的数据验证和软件工程

Breck 等人分享了 Google 用于每天验证 PB 级生产数据的管道的详细信息。由于有如此多的活动部件，因此必须能够在数据分布发生变化之前检测和调查它们，以免影响模型性能。 “机器学习的软件工程：案例研究”分享了微软在机器学习开始渗透到公司越来越多的系统时吸取的教训，从专业的机器学习产品到仅仅成为许多产品和服务不可或缺的一部分。

作者：Adrian Colyer | 2019 年 10 月 7 日

混合机器学习和人类判断的效果
人与机器之间的协作不一定会带来更好的结果。

基于现有文献的理论发现，一些政策制定者和软件工程师认为，COMPAS 软件等算法风险评估可以通过告知和改进有关警务、治疗和量刑的决策来缓解监禁流行病和暴力犯罪的发生。综合考虑，这些发现表明，人与机器之间的协作不一定会带来更好的结果，当算法出错或表现出令人担忧的偏见时，人类监督并不能充分解决问题。

作者：Michelle Vaccaro、Jim Waldo | 2019 年 9 月 16 日

机器学习学术研究中令人不安的趋势
一些 ML 论文存在可能误导公众并阻碍未来研究的缺陷。

有缺陷的学术研究有可能通过损害 ML 的知识基础来误导公众并阻碍未来的研究。事实上，许多这些问题在 AI 的历史上以及更广泛的科学研究中周期性地重复出现。 1976 年，德鲁·麦克德莫特斥责 AI 社区放弃自律，并预言性地警告说“如果我们不能批评自己，别人会替我们省去麻烦。”机器学习目前的优势归功于迄今为止大量的严谨研究，包括理论研究和实证研究。通过促进清晰的科学思维和交流，我们的社区可以维持目前享有的信任和投资。

作者：Zachary C. Lipton、Jacob Steinhardt | 2019 年 4 月 24 日

机器学习时代的知识库构建
三个关键设计点：联合学习、弱监督和新表示

今天可访问的信息比人类历史上任何其他时期都多。然而，从软件的角度来看，绝大多数数据都无法使用，因为它被锁定在非结构化格式中，例如文本、PDF、网页、图像和其他难以解析的格式。知识库构建的目标是从这种“黑暗数据”中自动提取结构化信息，以便它可以用于搜索、问答、链接预测、可视化、建模等下游应用程序。

作者：Alex Ratner、Christopher Ré | 2018 年 7 月 26 日

模型可解释性的神话
在机器学习中，可解释性的概念既重要又难以捉摸。

监督式机器学习模型拥有卓越的预测能力。但是你能信任你的模型吗？它在部署中会工作吗？它还能告诉你关于世界的什么？

作者：Zachary C. Lipton | 2018 年 7 月 17 日

预测服务系统
当我们希望实际将机器学习模型部署到生产环境时会发生什么？

本期“实践研究”精选了 Dan Crankshaw 和 Joey Gonzalez 的内容，他们概述了机器学习服务系统。当我们希望实际将机器学习模型部署到生产环境时会发生什么，以及我们如何以高精度和高计算效率提供预测？ Dan 和 Joey 的选择提供了对尖端技术的周到选择，涵盖数据库级集成、视频处理和预测中间件。

作者：Dan Crankshaw、Joseph Gonzalez | 2018 年 4 月 25 日

用数学赚钱
现代应用程序越来越多地使用概率机器学习模型。

人类编写的代码和学习模型之间的一个主要区别在于，后者通常不用文本表示，因此人类开发者无法理解，也无法通过现有工具进行操作。结果是，传统的软件工程技术对于传统程序（例如代码审查、源代码控制和调试）不再适用。由于不可理解性并非学习代码所独有，因此这些方面在此处不予考虑。

作者：Erik Meijer | 2017 年 2 月 22 日

不会撒盐的象棋选手
AI：软 AI 和硬 AI，弱 AI 和强 AI，狭义 AI 和通用 AI

几乎所有非专业 AI 工作中固有的问题是，人类实际上首先对智能的理解并不好。现在，计算机科学家通常认为他们理解智能，因为他们经常是“聪明”的孩子，但这与理解智能实际上是什么关系不大。在不清楚理解人脑如何产生和评估想法的情况下，这可能不是智能概念的良好基础，我们引入了许多智能的代理，其中第一个是游戏行为。

作者：George Neville-Neil | 2016 年 12 月 26 日

AI 和 HCI 交叉点的自然语言翻译
使用 AI 和 HCI 回答旧问题

人工智能 (AI) 和人机交互 (HCI) 领域正以前所未有的方式相互影响。广泛使用的系统（如 Google 翻译、Facebook Graph Search 和 RelateIQ）将大规模 AI 系统的复杂性隐藏在直观的界面之后。但关系并非总是如此吉祥。这两个领域出现在计算机科学历史上的不同时期，具有不同的影响、抱负和随之而来的偏见。 AI 旨在构建人类智力的竞争对手，甚至可能是继任者。早期的 AI 研究人员（如 McCarthy、Minsky 和 Shannon）都是数学家出身，因此定理证明和形式模型具有吸引力的研究方向。

作者：Spence Green、Jeffrey Heer、Christopher D. Manning | 2015 年 6 月 28 日

AI 获得大脑
新技术使软件能够利用真正的人类智能。

自从约翰·麦卡锡提出人工智能这个词以来，在识别、理解和自动化许多曾经是人类智能专属领域的符号和计算问题方面取得了很大进展。该领域仍有许多工作要做，因为人类在完成诸如识别照片中的物体等简单任务方面仍然明显优于最强大的计算机——孩子们甚至在学会说话之前就可以做到这一点。

作者：Jeff Barr、Luis Felipe Cabrera | 2006 年 6 月 30 日

电脑游戏中的 AI
更智能的游戏带来更好的用户体验。未来会怎样？

如果您一直关注游戏开发领域，您可能已经听到许多评论，例如：“图形在电脑游戏中的主要作用很快就会结束；人工智能是下一个大事件！” 尽管您几乎不应该相信此类说法，但其中确实有一些道理。 AI（人工智能）的质量是游戏迷在做出购买决定时的高度评价功能，也是提高玩家沉浸感和乐趣的具有巨大潜力的领域。

作者：Alexander Nareyek | 2004 年 2 月 24 日

© . All rights reserved.