物理学家卡尔·萨根曾写道:“科学不仅仅是一堆知识;它是一种思考方式。” 这种思考方式需要怀疑的严谨性和残酷的诚实,以便彻底调查、推理,并在仓促下结论之前努力证伪假设。但人们太容易仓促下结论了。尽管我们自诩聪明,但人类很容易相信建立在少量相关信息而非严格寻求确定因果基础之上的非凡谬论。
人类如此容易相信奇妙、幻想事物的这种倾向,正是另一位物理学家理查德·费曼所说的“货物崇拜科学”。费曼以太平洋岛屿上的人们的“货物崇拜”现象命名了这种现象,这些人认为建造复制的飞机跑道和控制塔将确保二战后补给飞机继续降落6。飞机再也没有来。这些人忽略了一个事实,即导致飞机在那里降落的是战争的到来,而不是跑道的存在。
今天,有些人推测,像GPT-4这样的大型语言模型(LLM)可以被视为通用人工智能(AGI)的早期版本3。与通常是特定于任务的人工智能(AI)相比,AGI被认为能够执行人类可能胜任的任何一般任务。关于LLM是新兴AGI的观点,有些令人不安。LLM表现出许多表明智能的行为和原则,但缺少一些本质的东西:科学探究的严谨性。今天的AI模型缺乏抽象推理的能力,包括提出和回答“为什么?”和“如何?”的问题。
科学思考能力是智能的本质定义吗? 事实是我们不知道。 至今还没有全面的理论来解释什么是智能,或者智能是如何从第一性原理中产生的。 然而,显而易见的是,今天的LLM无法重现科学思维,而科学思维使人类能够将培根的经验主义和笛卡尔的理性主义结合起来,以科学理论的形式扩展可证伪知识的边界。 科学探究方法使人类能够确立普遍性、非决定论和因果关系的各个方面,最终使我们能够操纵自然世界以增进人类福祉。
大量证据表明,人脑并非天生具有科学思维;然而,它可以被教会这样做。 形成围绕UFO、ESP以及社交媒体上阅读的任何内容的广泛且毫无根据的信仰的货物崇拜的同一种物种,也产生了像萨根和费曼这样的科学巨匠。 今天最前沿的LLM也不是天生具有科学性的。 但是,与人脑不同,我们有充分的理由相信它们永远不会具有科学性,除非开发出新的算法范式。
人工智能的显著进步,包括最近引起轰动的ChatGPT,都归功于一种名为多层(或深度)神经网络的单一、具有数十年历史的机器学习方法的成功。 这种方法是在20世纪40年代发明的17,并且神经网络(net)11,15和相关方法(包括卷积神经网络7和反向传播19)的所有基本概念在20世纪80年代就已经到位。 然而,直到用于训练的大型数字数据集和GPU(图形处理器单元)形式的足够快的硬件出现,使用神经网络的应用才开始蓬勃发展。
神经网络在当今人工智能中的主导地位是对其令人印象深刻的新兴能力的致敬。 神经网络是一个数学函数,提供经验信息的表示,并为给定的输入计算输出。 神经网络的特定数学形式是加权的、有向的图,其中顶点称为神经元,边称为连接。 在像GPT-3这样的模型中,它有1750亿个连接,因此有1750亿个权重2,该函数将有数十亿项。
神经网络的权重和偏差是通过一种称为深度学习的过程确定的,该过程使用反向传播算法来逐步减少模型预测和训练数据之间的误差14。 由此产生的训练后的神经网络模型有效地将训练数据转换为抽象表示,这些抽象表示抑制了琐碎的信息,并放大了或扭曲了对分类至关重要的特征。 这些抽象表示最初用于实现各种不同数据输入的分类,但也可以用于生成能力。 今天,AI模型生成从聊天提示到图像(例如,由生成对抗网络生成)的任何内容。 在这些生成任务背后的transformer模型,其中LLM GPT-3就是一个例子,仍然使用神经网络的基础架构,并添加了注意力机制,以便通过跟踪顺序数据中的关系来学习上下文24。
因此,基于神经网络的深度学习已被证明是一个极其强大且灵活的计算框架。 然而,如果目标是实现能够进行科学推理的AGI,则有理由担心这种方法最终会达到瓶颈。 神经网络可能从根本上无法做某些事情,例如建立普遍性、非决定论或因果推理。 即使对于它们能够做的事情,神经网络也极其消耗资源。 在通往AGI的道路上,这种方法还能真正挖掘出多少改进?这真的可持续吗?
摩尔定律驱动的计算能力和内存容量的急剧增加,推动了数据语料库的爆炸式增长,并使得可以使用资源密集型的深度学习方法。 谷歌的BERT(来自Transformer的双向编码器表示)的训练需要33亿个token和超过40个训练epoch。 与此相比,普通儿童在五岁时可能会听到4500万个单词20。 这比BERT少3000倍,并且与用于训练GPT-3的可能数千亿个token相比,相形见绌。
今天的数据和资源丰富与计算时代初期基于匮乏的基础算法工作形成鲜明对比,当时的创新是基于匮乏的。 计算内存和处理能力非常有限且非常昂贵,因此需要新的算法方法来解决低效的蛮力方法不可能解决的场景中的问题。
实现AGI可能需要在新算法的设计中回归这种匮乏心态,这种算法可以显著节省信息处理和抽象模型生成。 训练越来越大的神经网络相关的成本和能源消耗的飞涨不太可能持续22,并且需要这种转变。 今天的大型AI模型可能需要花费数千万美元进行训练26,并且它们每年也消耗太瓦时的能源21。 相比之下,人脑消耗的能量微不足道。
好消息是,今天AI模型中的数据表示可能远非实现某种能力所需的算法最小表示25,因此基于匮乏的算法创新有充足的空间。
即使这个问题得到解决,AI在缺乏科学思考能力方面仍然存在根本性限制。 除非引入使AI能够提出和回答“为什么”问题的根本性算法创新,否则当前的方法将无法实现AGI。
神经网络是模型。 它们提供了一种计算结果的数学程序,而不是直接测量结果。 几个世纪以来,人类一直在开发模型来帮助预测和理解,并最终提高生产力。 数学程序通常可以确定,以便准确预测结果,而无需每次都进行测量以获得特定信息,例如火箭的轨迹或电容器中存储的能量。
开发模型来进行此类预测是理论科学的基础。 数学模型的成功通常取决于其预测普遍性。 具体而言,为预测一种现象而开发的数学程序在多大程度上能够成功预测完全不同类别的现象?
考虑开发一个模型来预测行星运动,这是天文学家约翰内斯·开普勒在17世纪解决的问题。 开普勒通过仔细研究天文学家第谷·布拉赫的详细天文测量数据,设计了他著名的行星运动三大定律。 这三大定律普遍描述了太阳系中行星的轨道形状、速度和周期,基于它们与太阳的距离。 虽然这些结果可以推广到其他行星系统或其他轨道天体(卫星、人造卫星等),但它们不能转化为非轨道引力现象。 艾萨克·牛顿在力学理论和引力理论方面的突破才得以开发出一个统一的数学框架,该框架可以描述行星的运动和苹果从树上掉落的运动。
因此,牛顿的方法比开普勒的方法更具普遍性,但这并不是故事的结局。 在某些物理场景中,牛顿模型会失效。 20世纪早期的突破,包括爱因斯坦的广义相对论和量子力学理论的发现,为不同领域的物理现象预测提供了更普遍的方法。 然后,这些数学模型可以用于准确预测比牛顿解决的问题范围更广的问题领域中将会发生的事情。
用于AI的神经网络模型的普遍性如何? 非常有限。 神经网络做出的预测仅适用于训练期间解决的场景。 如果训练数据中未包含足够不同的场景,则AI将无法做出准确的预测。 AI的生成能力也受到训练场景范围的限制。
考虑一个在布拉赫天文数据上训练的神经网络; 结果将是一个AI模型,它能够预测太阳系中已知行星相对于地球参考系的位置,但不能推广到其他坐标系、其他天体或其他行星系统。 行星运动AI模型不仅不如开普勒的模型普遍,而且也无法通过询问行星为什么以这种方式运动的问题来朝着提高普遍性的方向发展。
值得注意的是两种模型之间的主要区别:AI中使用的模型和理论物理学中遇到的模型。
AI模型完全是数据驱动的,使用数学函数(神经网络的函数)来编码非常大型数据集的抽象表示。
通常在理论物理学中找到的模型(牛顿力学就是一个例子)是对观察到的物理现象的概括。 这些模型以微分或积分方程的形式编写,通过科学方法的严格假设检验来确定,在相关领域中是普遍的。 这些方程的解通常是计算密集型的,需要形式化的数学方法才能准确求解。 这些模型还通过描述潜在的数据生成过程来建立因果推理——我们将在后面讨论这个主题。
如果AI的模型是数据驱动的而不是普遍的,为什么AI被证明如此有用? AI似乎特别适合的任务(例如图像识别和撰写文章)是人脑也擅长的一部分任务。 也许这并不奇怪,因为神经网络的灵感来自大脑中神经元的突触网络17。 神经网络已被实验证明非常擅长模拟人类行为——这并非基于任何理论基础。 对于人脑实际如何工作,没有简单的科学理论,因此无法证明为什么AI作为大脑能力的模仿物如此有效; 但是,在对这些人类掌握的任务进行建模时,还没有更好的替代方案。
这里的关键点是,AI模型和物理模型都不能称为智能。 使人类智能与当今AI不同的地方在于,人类智能能够提出“为什么”的问题,从第一性原理进行推理,并创建实验和模型来检验假设。 真正的AGI应该做同样的事情:开发越来越复杂的模型,以尽可能普遍地(甚至可能比)人类迄今为止所取得的成就来解释现象。 这将是AGI的一个理想目标,它远非复制人类的货物崇拜行为。
对普遍性的考虑引出了另一个问题:如果你给AI输入宇宙中产生的所有数据,会怎么样? 当然,足够大的神经网络将能够做任何事情。 不幸的是,并非如此——即使你以某种方式弄清楚了如何收集、在哪里存储以及如何处理所有这些数据。 这种理想的、数据驱动的超级智能是数学家皮埃尔-西蒙·拉普拉斯在1814年提出的,并且已被20世纪的科学发展证明是不可能实现的10。
主要原因是在量子力学领域发现的宇宙固有的非决定论。 经典动力学理论中混沌系统的其他发现也提出了一个问题:即使初始条件的微小扰动也可能导致截然不同的结果,这需要无限的测量精度才能进行数据采集。
最后,逆问题[参见侧边栏“AI能听到鼓的形状吗?”]提出了另一个挑战:即使关于系统的所有相关数据都可用,由于非唯一性以及从正问题到逆问题的信息丢失,仍然不可能确定原因。
量子力学系统和混沌系统是科学家已经确定了因果链的各个方面的两种情况,但无法预测具体结果。 可以编写一个微分方程来确定性地预测粒子概率幅的动力学演化,但科学证明,在实际测量之前,确定性地预测可观测状态(例如粒子的位置)是不可能的。 类似地,可以写下混沌系统的控制方程,例如双摆的控制方程,但如果不精确了解其初始条件和直接计算,则无法预测其稍后时间的位置。
自然界充满了这样的例子,在这些例子中,由于固有的非决定论,意外可能随时发生。 仅通过经验方法无法确定这些现象背后的原因。
侧边栏:AI能听到鼓的形状吗?
我最近开始问前来面试研究职位的候选人,是否有可能听到鼓的形状。 数学家马克·卡茨在1966年提出了这个看似无害的问题12,并困扰了数学界数十年。
我经常得到的快速回答是:“是的,当然可以听到鼓的形状。 所需要的只是与鼓面形状相关联的足够大的声音数据集(用于监督学习),或者甚至在不与形状关联的情况下(用于无监督学习),以及有效的训练算法和验证方法。 一旦模型在数据上进行了训练,它将从给定的任何记录频谱中推断出鼓的形状。”
这个答案是错误的,这也是卡茨著名的提问值得在今天的AI背景下重新审视以解决复杂问题的原因。 在20世纪90年代,数学家最终证明,实际上不可能听到鼓的形状,或者至少不是唯一地听到9。 这是因为存在不同形状的鼓面,它们产生完全相同的声音,或者用数学术语来说,是等谱的。 数学家通过抽象推理研究亥姆霍兹方程边值问题,从中获得见解,并得出了这个答案,亥姆霍兹方程边值问题描述了鼓面表面的运动。 卡茨问题的答案不能仅通过对频谱数据进行经验分析来找到。
机器学习模型将如何处理一对不同形状的等谱鼓的情况? 如果两种形状的频谱都包含在训练数据中,则假设训练数据已标记并采用监督学习方法,则该模型将有有限的概率获得正确的答案。 但是,如果训练中仅包含一种形状的频谱,而另一种形状的频谱用于推理,则该模型将为预测的鼓形状给出错误的结果。 也许我们应该保持警惕,并将所有等谱鼓面形状都包含在训练集中? 然后,我们面临着先验地知道存在多少种此类形状的问题。 我们必须回到抽象的数学推理。
对于那些熟悉逆问题(卡茨的鼓就是一个例子)的人来说,这些观察结果根本不足为奇。 逆问题旨在利用观察到的数据来确定产生数据的因果因素。 纯粹的经验、数据驱动的方法只能部分理解振动鼓的情况下正在发生的事情。 然而,借助数据驱动的、支持机器学习的AI模型提供的日益强大的锤子,一切都开始看起来像钉子。 从分析方法中可能收集到的强大见解被抛之脑后,这在我的许多面试候选人中太常见了。
虽然大多数候选人都答错了这个问题,但他们可以很快学会如何全面探索逆问题的解空间。 相比之下,AI不是通用智能,它不知道如何提出和回答鼓面频谱是什么、是否有可能有等谱鼓以及如果有多少个等谱鼓的问题。 人类可以被训练来提出这些问题,并使用人类开发的严谨的科学和分析方法,得出可证伪的综合假设作为答案。 AI还没有达到那个水平。
在可以建立因果关系的情况下又如何呢? 即使在这种情况下,AI也无法成功回答“为什么”。 今天基于神经网络的AI无法推断数据生成过程的特征,因此无法建立因果推理18。 通过科学假设检验和反事实逻辑来做到这一点的能力,不在神经网络的范围内,并且仍然是AI尚无法实现的人类行为的一个特征。
警示之处在于,当实际上不存在因果关系时,人类可能会错误地在因果关系背景下使用AI——实际上加剧了人类货物崇拜的产生。 这是因为神经网络非常擅长识别数据集中的相关性。 然而,任何具有基本统计训练的人都知道,相关性并不意味着因果关系。 存在许多突出的数据相关性示例,这些示例映射到虚假的因果链,例如鹳的数量与人类出生率之间的关系16,以及海盗数量减少导致气候变化的出现1。
在因果推理至关重要的环境中,AI的相关能力的应用一直在增加。 一个突出的例子是AI在确定医疗诊断中的应用。 在委托神经网络做出取决于建立因果关系的决策(例如,从症状确定疾病)时,应谨慎,尤其是在人的生命处于危险之中时。 如果用作医生分析数据的辅助工具,AI在临床环境中可能非常有用——只要人类医生本身受过训练,能够保持独立的推理、假设检验和决策制定路线。 来自AI的输出应被视为可能有所帮助的相关性指标,而不是被视为因果命令。
为什么人类决策者的独立思考如此重要? 除了无法建立因果关系之外,来自AI的输出是无法解释的,有时甚至是完全荒谬的。 这并不是说我们不知道AI是如何工作的。 原则上,可以跟踪神经网络为给定输入所做的每一次计算,以了解它是如何得出答案的。 然而,当今神经网络的庞大规模不仅使其不切实际,而且基本上毫无意义,从而给人留下神经网络充当黑匣子的印象。
同样,即使训练算法很容易理解,任何给定权重具有特定值的原因也无法轻易推断出来。 数十亿个权重是通过使用大量精选数据语料库进行多次训练epoch来确定的。 因此,为相同任务设计的神经网络如果训练方式不同,可能会有不同的行为,从而导致不同的权重。
AI错误和错误分类的例子比比皆是。 其中一些例子旨在阐明确定错误输出结果的原因的难度。 例如,如果噪声是通过向量梯度设计的,以跨越神经网络的高维决策边界,则向图像添加看起来像噪声的东西可能会导致错误分类8。
在其他情况下,AI分类是错误的,因为训练数据中存在伪影。 来自临床环境的例子包括一个训练用于检测胸部X光片上的肺炎的神经网络,当在来自其他医院的X光成像系统的数据上进行测试时,其性能显着下降。 这种退化是由这些其他X光成像系统的图像伪影变化引起的27。 AI模型还学会了将不相关的特征(例如X光片拍摄前放置在患者身上的金属代币)与疾病发生相关联。
今天的transformer模型旨在扩展到以前的方法之外,为定制应用开发AI,例如肺炎检测AI模型。 LLM是领先的例子。 这些模型提出了AI的新范式,利用迁移学习将单个庞大的模型应用于各种不同的任务。 然而,这些基础transformer模型(也称为基础模型)引入了新的风险:从少数transformer模型派生的所有下游AI系统都将继承这些父transformer模型的任何错误或有问题的偏差2。
还有transformer模型输出荒谬的例子,例如ChatGPT的“幻觉”。 例如,当被问及患有巨大血管瘤的患者是否可以服用抗凝剂时,ChatGPT不仅给出了不正确的回答,这与所有临床指标相矛盾,因此可能对患者致命,而且它还创建了虚假的引文,表面上是为了支持其主张4,5。
这不仅令人不安,而且如果这种回应应用于临床环境,将是一个明显的AI滥用示例。 ChatGPT并非旨在给出事实正确的答案。 它的设计目的是通过顺序选择最有可能跟随单词字符串的token,以在语法上与人类语言一致的方式排列一组单词25。 它的一些答案有意义,这仅仅是因为语法正确的段落实际上包含可验证的正确信息的统计概率。 因此,将这种类型的错误输出称为幻觉是名不副实的。 这些回应并非源于模型预期行为中的错误,而是源于模型本身的根本局限性。
尽管存在这些限制,AI仍将继续被人类采用,并且不可避免地,人类认知将因此而适应。 近期历史已经显示,人类认知为了响应新技术而进行了调整。 互联网搜索引擎的出现改变了人类的记忆,使其倾向于信息的来源,而不是信息本身23。 由于将AI纳入工作流程而导致的人类生产力提高,不应取代对独立人类理性的训练和磨练13。 否则,我们的社会可能会经历新的人类货物崇拜的爆发。
可能仍然有可能训练足够大的神经网络来模仿人脑可以做的绝大多数事情。 神经网络最近在执行类似人类的图像字幕和文章写作任务方面的成功表明,大脑的处理可能不像以前认为的那么计算困难。 这个结果本身可能是一项科学突破25。
然而,诸如此类的进步并不能否定为了实现AGI还需要做更多工作的事实。 将需要新的算法方法来超越纯粹经验推理可及的边界,以包括科学思维所需的抽象推理、假设检验和反事实逻辑。 还将需要匮乏心态来实现算法效率,从而为未来的AI系统实现可持续的资源消耗水平。
尽管存在挑战,但仍有理由感到非常乐观。 AI和AGI研究提供的最令人兴奋的机会是了解最伟大的未解决的科学问题之一的途径:人类思想以及智能的涌现现象。 至今,还没有科学理论解释人类如何思考以及为什么思考。
值得以AGI是否有可能实现的问题作为结尾。 如果AGI被定义为与人类智能相当的智能,那么答案一定是肯定的。 人脑的客观存在表明,应该有可能将物质配置成与人同样智能的形式。 但是,AGI是否真的是一个理想的目标仍然是未知的,因为缺乏对构成人类智能的实际内容的全面科学理解。 形成货物崇拜肯定不是一种值得效仿的理想行为,但人类为什么这样做是未知的。
也许人脑天生就有些懒惰。 人类需要付出特殊的、集中的努力才能进行推理并以科学的方式思考问题。 人类认知的默认懒惰可能是进化压力选择有效支出能量的产物,因为大脑是主要的能量消耗者。 在寻求创造能够复制人脑所有能力的AGI之前,应该回答这些推测。 否则,在未来的某个时候,我们将不仅有人的货物崇拜,而且还有AGI的货物崇拜。
1. Andersen, E. 2012. True fact: the lack of pirates is causing global warming. Forbes (March 23); https://www.forbes.com/sites/erikaandersen/2012/03/23/true-fact-the-lack-of-pirates-is-causing-global-warming/?sh=6bb3b5c03a67.
2. Bommasani, R., et al. 2022. On the opportunities and risks of foundation models. arXiv; https://arxiv.org/abs/2108.07258.
3. Bubeck, S., et al. 2023. Sparks of artificial general intelligence: early experiments with GPT-4. arXiv; https://arxiv.org/abs/2303.12712.
4. ChatGPT. Question: "Why anticoagulate for giant hemangioma?" Chat GPT Response: "If a person has a giant hepatic hemangioma and is at risk of bleeding, their healthcare provider may recommend anticoagulant medications as a preventive measure to help reduce the risk of bleeding." Retrieved from openai.com on January 4, 2023.
5. ChatGPT. Question: "References for anticoagulation giant hepatic hemangioma?" Chat GPT Response: "Anticoagulation Therapy for Giant Hepatic Hemangioma: A Case Report and Review of the Literature, Anticoagulation for the management of giant hepatic haemangioma: A case report and review of the literature, Anticoagulation therapy in the management of giant hepatic hemangioma: a systematic review and meta-analysis" Retrieved from openai.com on January 4, 2023.
6. Feynman, R. P. 1974. Cargo cult science. Caltech commencement address; https://calteches.library.caltech.edu/51/2/CargoCult.htm.
7. Fukushima, K. 1980. Neocognitron: a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics 36, 193–202; https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf.
8. Goodfellow, I. J., Shlens, J., Szegedy, C. 2015. Explaining and harnessing adversarial examples. arXiv; https://arxiv.org/abs/1412.6572.
9. Gordon, C., Webb, D. L., Wolpert, S. 1992. One cannot hear the shape of a drum. Bulletin of the American Mathematical Society 27; https://www.ams.org/bull/1992-27-01/S0273-0979-1992-00289-6/.
10. Hawking, S. W. 1999. Does God play dice? Academic lectures; https://www.hawking.org.uk/in-words/lectures/does-god-play-dice.
11. Ivakhnenko, A. G., Lapa, V. G. 1965. Cybernetic Predicting Devices. CCM Information Corporation.
12. Kac, M. 1966. Can one hear the shape of a drum? American Mathematical Monthly 73 (4); https://www.maa.org/sites/default/files/pdf/upload_library/22/Ford/MarkKac.pdf.
13. Kissinger, H. A. 2018. How the Enlightenment ends. The Atlantic (June); https://www.theatlantic.com/magazine/archive/2018/06/henry-kissinger-ai-could-mean-the-end-of-human-history/559124/.
14. LeCun, Y., Bengio, Y., Hinton, G. 2015. Deep learning. Nature 521, 436–444; https://www.nature.com/articles/nature14539.
15. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., Jakel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural Computation 1 (4), 541–551; https://ieeexplore.ieee.org/document/6795724.
16. Matthews, R. 2000. Storks deliver babies (p= 0.008). Teaching Statistics 22 (2), 36–38; https://onlinelibrary.wiley.com/doi/abs/10.1111/1467-9639.00013.
17. McCulloch, W. S., Pitts, W. 1943. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics 5, 115–133; https://link.springer.com/article/10.1007/bf02478259.
18. Pearl, J. 2018. Theoretical impediments to machine learning with seven sparks from the causal revolution. Paper supporting keynote talk at WSDM'18: Proceedings of the 11th International Conference on Web Search and Data Mining; http://dlnext.acm.org/doi/abs/10.1145/3159652.3176182.
19. Rumelhart, D. E., Hinton, G. E., Williams, R. J. 1988. Learning representations by back-propagating errors. Cognitive Modeling 5(3).
20. Saenko, K. 2020. It takes a lot of energy for machines to learn – here's why AI is so power-hungry. The Conversation; https://theconversation.com/it-takes-a-lot-of-energy-for-machines-to-learn-heres-why-ai-is-so-power-hungry-151825.
21. Saul, J., Bass, D. 2023. 人工智能蓬勃发展——碳足迹也随之增长。彭博社 (3月9日); https://www.bloomberg.com/news/articles/2023-03-09/how-much-energy-do-ai-and-chatgpt-use-no-one-knows-for-sure#xj4y7vzkg。
22. 半导体研究公司。2021. 半导体十年规划; https://www.src.org/about/decadal-plan/.
23. Sparrow, B., Liu, J., Wegner, D. M. 2011. 谷歌效应对记忆的影响:唾手可得的信息带来的认知后果。 科学 333(6043), 776-778, https://www.science.org/doi/10.1126/science.1207745。
24. Vaswani, A., et al. 2017. 注意力是你所需要的一切。 arXiv; https://arxiv.org/abs/1706.03762。
25. Wolfram, S. 2023. ChatGPT 在做什么... 以及它为什么有效? https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/。
26. Yalalov, D. 2023. 人工智能模型训练成本预计到 2030 年将从 1 亿美元增加到 5 亿美元。 Metaverse Post (2月3日); https://mpost.io/ai-model-training-costs-are-expected-to-rise-from-100-million-to-500-million-by-2030/。
27. Zech, J. R., Badgeley, M. A., Liu, M., Costa, A. B., Titano, J. J., Oermann, E. K. 2018. 深度学习模型在检测胸部X光片中的肺炎时的可变泛化性能:一项横断面研究。 PLOS医学 15 (11); https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1002683。
Edlyn V. Levine, Ph.D., 是美国前沿基金的联合创始人兼首席科学官。她也是哈佛大学物理系的副研究员。
版权 © 2023 由所有者/作者持有。出版权已授权给。
最初发表于 Queue vol. 21, no. 2—
在 数字图书馆 中评论这篇文章
Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
大型语言模型 (LLM) 容易产生幻觉、提示注入和越狱,这对它们的广泛采用和负责任的使用构成了重大但可克服的挑战。我们认为这些问题是固有的,当然在当前一代模型中是这样,并且可能在 LLM 本身中也是如此,因此我们的方法永远不能基于消除这些问题;相反,我们应该应用“深度防御”策略来缓解这些问题,并且在构建和使用这些系统时,要假设它们有时会在这些方向上失败。
Sonja Johnson-Yu, Sanket Shah - 你不了解人工智能
长期以来,很难确定人工智能到底是什么。几年前,这样的讨论会演变成长达数小时的会议,在会上绘制维恩图并试图描绘出人工智能的不同子领域。快进到 2024 年,我们现在都知道人工智能到底是什么了。人工智能 = ChatGPT。或者不是。
Jim Waldo, Soline Boussard - GPT 和幻觉
这项实验的发现支持了以下假设:基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示上表现良好,但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性突显了模型依赖于其训练数据的数量和质量,这与依赖于多样化和可信贡献的众包系统相类似。因此,虽然 GPT 可以作为许多日常任务的有用工具,但应谨慎解读它们对晦涩和两极分化主题的参与。
Erik Meijer - 虚拟机器:将大型语言模型用作神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以作为数据库,还可以作为动态的、最终用户可编程的神经计算机发挥作用。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言,它将思维链推理形式化和外部化,就像它可能发生在一个大型语言模型内部一样。