幻觉

第 22 卷,第 4 期 – 2024 年 7/8 月

Hallucination

GPT 和幻觉
为什么大型语言模型会产生幻觉?

这项实验的发现支持了以下假设:基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示下表现良好,但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调,模型依赖于其训练数据的数量和质量,这与依赖于多样化和可信贡献的众包系统类似。因此,虽然 GPT 可以作为许多日常任务的有用工具,但应谨慎解释它们对晦涩和两极分化主题的处理。LLM 依赖概率模型来生成关于世界的陈述,这使其准确性与所提供数据的广度和质量紧密相关。

作者:Jim Waldo, Soline Boussard

机密计算证明
一种密码学零知识的替代方案

证明是用于完整性和隐私的强大工具,使验证者能够委托计算并仍然验证其正确执行,并使证明者能够保持计算细节的私密性。CCP 和 ZKP 都可以实现可靠性和零知识,但存在重要差异。CCP 依赖于硬件信任假设,这为证明者带来了高性能和额外的保密性保护,但对于某些应用来说可能是不可接受的。CCP 通常也更易于使用,尤其是在现有代码的情况下,而 ZKP 则带来了大量的证明者开销,这对于某些应用来说可能是不切实际的。

作者:Mark Russinovich, Cédric Fournet, Greg Zaverucha, Josh Benaloh, Brandon Murdoch, Manuel Costa

评估 IT 项目成功:感知与现实
如果没有 IT 项目的持续成功,我们就不会进入数字时代。

通过提供对 IT 项目成功的新见解,这项研究对实践、研究和教育具有重要意义。它通过报告项目成功(而不仅仅是项目管理成功)扩展了项目管理知识体系,项目成功基于若干客观标准,例如项目后期阶段客户对可交付成果的使用情况、客户聘用与项目相关的支持/维护服务、客户签订新项目合同以及客户向潜在客户推荐供应商。研究人员可以找到一套标准,用于研究和报告 IT 项目的成功,从而扩展当前对评估的看法,并有助于得出更准确的结论。对于从业者来说,这项研究提供了一套丰富的标准,可用于评估他们的项目,并为在评估中不仅考虑项目执行,而且考虑项目后期的成果和影响的重要性提供了强有力的证据。

作者:João Varajão, António Trigo

质疑评估非加密哈希函数的标准
也许我们需要更多地思考非加密哈希函数。

虽然加密和非加密哈希函数无处不在,但在它们的设计方式上似乎存在差距。出于各种安全需求,存在许多加密哈希的标准,但在非加密方面,存在一定的传统,尽管哈希函数历史悠久,但尚未得到充分探索。虽然针对真实世界数据集的均匀分布很有意义,但当面对具有特定模式的数据集时,这可能是一个挑战。

作者:Catherine Hayes, David Malone

程序合并:深度学习与此有何关系?
与 Shuvendu Lahiri, Alexey Svyatkovskiy, Christian Bird, Erik Meijer 和 Terry Coatta 的讨论

如果您经常使用开源代码或为大型组织开发软件,您已经熟悉大规模协作编程带来的许多挑战。其中一些最棘手的问题往往会随着不可避免地对代码进行的许多独立更改而浮出水面,不出所料,这可能会导致更新不同步。当然,困难的合并并非新鲜事,但问题的规模已经变得更糟。这就是促使 MSR(微软研究院)的一组研究人员将复杂合并作为一项重大的程序修复挑战来承担的原因,他们认为这项挑战至少可以在一定程度上通过机器学习来解决。

作者:Shuvendu Lahiri, Alexey Svyatkovskiy, Christian Bird, Erik Meijer, Terry Coatta

确定性记录与回放
仅关注过程中的非确定性操作

本专栏介绍了与确定性记录与回放相关的三项最新研究进展,旨在展示经典用例和新兴用例。越来越多的系统使用较弱形式的确定性记录与回放。本质上,这些系统利用了许多程序执行中存在的确定性,但出于性能原因,有意允许一些非确定性。这种趋势在 GPUReplay 中尤其突出,但在 ShortCut 和 Dora 等系统中也很明显。

作者:Peter Alvaro, Andrew Quinn

不受欢迎的惊喜
当那个玩笑般的 API 落在你头上时

这里有一个更深层次的问题,即具有强制类型的弱类型语言是否真的首先是一个好主意。如果您不知道您正在操作什么,或者预期的输出范围可能是什么,那么也许您一开始就不应该操作这些数据。但是现在这些语言已经进入了野外,我们永远无法足够快地追捕并杀死它们,以满足我的喜好或为了更大的利益。

作者:George V. Neville-Neil

测试账户:一个隐藏的风险
您可能会认为风险是可以接受的。但如果不是,这里有一些避免风险的规则。

多人共享的测试帐户可以被任何碰巧拥有密码的人使用。这留下了一系列管理不善或无人管理的帐户,只会增加您的攻击面。测试帐户可能是一个信息宝库,甚至可以泄露有关内部系统详细信息的信息。如果您确实需要采用这种方法,请为您的开发人员提供他们自己的测试帐户,然后教育他们有关滥用这些帐户的风险。此外,如果您可以定期使这些帐户过期,那就更好了。

作者:Phil Vachon

© . All rights reserved.