很多人都说过,“如果我不能把它带走,我就不去!” 我刚刚也说了,但这不算数。 我们想知道,是谁第一个说或写了这句话? 这就是我所称的(并声称拥有首创权)FUQ(经常无法回答的问题,发音为“fook”以避免歧义和争吵)。 尤吉·贝拉著名的建议是“您可以查阅”,实际上意思是“相信我的话”。 他很清楚,很少有人有手段或耐心去翻阅记录。 当然,如今,正如我们在 Unix 中所说,这比 sed 更容易完成。1 用于在网络上进行 grepping 的混合词 wep,现在在无数搜索引擎中实现和完善,让我们能够以几个简单的击键和鼠标点击,从字面上接受尤吉的挑战。 然而,正如我旨在指出的那样,生活——至少是严肃学术的生活——并非易事。
寻找最早的出处对于词源学家和社会语言学家来说具有重要的应用价值。 在专利和知识产权纠纷中,确定优先权的相关问题也显得突出、可诉讼且代价高昂。 事实上,它已经成为一门名为引文学的新兴科学的一部分,关于这门科学稍后会详细介绍。 以专有名词Google及其派生的词性为例:动词形式(“当我在用 Google 搜索时”);形容词形式(“Google 道德”);不正规名词形式(“没有什么比得上好的 Google 了。”)。 您可能会有充分的理由认为,Google 的起源与令人难以置信的大数 googol(广告商植入的 10100 个虚假匹配项)有关,或者与 goggling 的行为(当虚假匹配项滚动时,眼睛凸出或眯起[中古英语])有关。 我自己更喜欢的词源是 googly,这是一种偷偷摸摸投出的板球,其旋转方向与击球手预期的方向相反。2 所有这些都暗示了天真地扫描网络的潜在危险。 即使使用开明的布尔修饰符,字面 strcmp()-类型的字符字符串匹配实际上也过于字面化。 正如沃尔特·马丁博士(最初的《圣经解答者》)过去常说的那样,“没有上下文的文本是借口。” 而上下文还不能方便、体面地解析和自动化。
此外,商业搜索引擎(不要感到惊讶)具有商业议程、元匹配和赞助的、炒作的超链接。 这些策略可能是公开且合理的(正如有人所说,“没有免费的午餐!”); 其他策略则是隐藏和阴险的。 “Galileo”可能会将您带到亚马逊上关于这个人的书籍(某种程度上可以接受),或者带到一些可疑的代理商,提供飞往比萨的廉价航班(某种程度上不可接受,尤其是当它是显示的第一个匹配项时)。 浏览,以前是悠闲地啃草或悠闲地读书,现在变成了在无尽的、错误标记的节点中疯狂地链接。
几个世纪以来,引文一直被尘土飞扬的手工词典编纂者追踪和剖析——还记得塞缪尔·约翰逊对词典编纂者的自我定义吗,即“无害的苦工”? 经典的案例是痛苦的(1879-1928 年)第一版 OED(牛津英语词典)的编纂,由詹姆斯·默里爵士(1837-1915 年)发起,他努力为每个词条提供最佳可用和最早已知的引文,作为对拟议词源和不断变化的语义的重要补充。 默里的外包读者大军,向 OED 总部涌入了数百万张手写的 4 x 6 英寸“词典卡片”,其中包括一些真正偏执的词语追踪者。 其中包括被定罪的“兰贝斯凶手”,美国出生的威廉·切斯特·米诺博士,他从他在布罗德莫尔精神病院的图书馆牢房里提供了 20 年的精彩引文。 您一定会喜欢赫伯特·柯勒律治,默里的另一位狂热的助手,“他三十一岁时的遗言是‘我明天必须开始学习梵语。’”3
引文追寻涉及多年的眼睛疲劳,在稀有的手稿、各种书籍(被禁和可用的)、报纸、象形文字、墓碑、陶片以及埋藏的犹太教堂文物储藏室(希伯来语 genizah 的复数形式,用于存放废弃的、损坏的圣书的仓库)中翻箱倒柜。 计算机的引入和许多这些来源的逐步数字化显然提高了准确性并减少了苦差事,但是,通过早于 OED 的任何“第一”引文来“击败” OED 的涅槃,仍然更有可能通过老式的人工苦力而不是电子搜索来实现。 任何具备基本技能和调制解调器的人都可以扫描可用的数据库。 但是,新闻报道的提前日期是那些通过查找和认真阅读尚未在线的非常稀有的来源而得出的日期。 也许记录是在 1976 年法国词典编纂者克劳德·博伊森发现了一本 17 世纪的西班牙草药书时,在一夜之间将 76 条 OED 植物学引文推迟。 我为此干杯!4
所以,是的,有一些专业的引文学家,他们每天都在孜孜不倦地寻求作者的优先权,以此谋生。 当他们的孩子问他们,“妈妈/爸爸,你是做什么工作的?” 时,他们可能会回答,“我相信这个问题最早是由小 F·约瑟夫斯在公元 67 年左右提出的,尽管有优秀的学者认为它早在商朝就出现了……你怎么还不睡觉?” JobSpec 模板非正式地是:谁最先说了 <T>,如何说,何时说,何地说,以及(节日奖金),为什么说?
找到 citationology 的首次使用需要,在某种程度上是递归地,它自身的方法。 添加希腊语公式化的 -ology 来表示对带后缀的词干的科学研究本身并不是一项惊天动地的词语创新成就。 但是,为特定 -ology 的出现建立准确的时空戳可能对科学史学家很有用。 我似乎是第一个使用 citationeering 的人(Unix Review,1989 年 3 月——但提交于 1989 年 1 月!),这是一种对业余引文猎人的相当贬义的挖苦(我后来不公平地称他们为维基百科爱好者)。 我能找到的 citationology 的首次出现是尤金·加菲尔德(The Scientist 杂志的出版商)的权威声明:“我提出术语 citationology 作为引文的理论和实践,包括其衍生学科,引文分析和文献计量学”,提交于 1998 年 4 月 9 日。5 令人兴奋的是,找到专家从业者命名了他自己领域的扩展,并且有强有力的证据(“我提出术语……”)证明了他的优先权。 然而,优先权始终是一个悬而未决的案例。
Web of Science、Google 学术搜索和 Scopus 等搜索引擎允许在引文游戏中进行无休止的改进。 职业、终身教职和资金可能不仅取决于确定出版优先权,还取决于比较“被引分数”(谁引用或参考了您的论文)并推断作者或论文的“影响力”。 当然,请注意,“我喜欢乔姆斯基”和“我讨厌乔姆斯基”都会为“乔姆斯基”注册匹配项。6
引文学家与引文员的区别不仅在于对前面提到的商业搜索引擎扭曲的成熟、精细的怀疑态度,还在于对网络内容质量参差不齐的平衡的愤世嫉俗。 当然,我们必须对我们所有的来源持同样的怀疑态度,无论是在装订的书籍和期刊中,还是在磁盘和屏幕上。 但是,通常更难以验证不稳定的媒体,即使我们的大部分信息实际上都起源于电子方式并以电子方式交换。 我们的网站和邮箱包括人类积累知识的同行评审存储库,以及有意或无意地散布虚假信息的栓剂。 正如一位技术作家的序言所警告的那样:“只相信真实的部分。 忽略其余部分。”
让我们不要太暴躁。 存在一个不断增长的引文和通俗语法家行业,以娱乐外行的文字工作者。 我已经数了数,有六本书的书名中带有 Lost for Words。 由约翰·巴特利特开创的“常见引语”选集以印刷版和在线形式存在。 我们自己的 网站维护着计算机相关谚语和妙语的列表。 凯文·G·巴克斯在 http://www.goodquotations.com 上维护着一个异常多样的收藏。 在 BBC 广播问答节目“Quote/Unquote”中,无法立即识别给定引语的参赛者的策略似乎是基于类型的合理猜测。 《圣经》、《莎士比亚》或丘吉尔在统计上对于庄严和雄伟的声明很有希望,而对于现代俏皮话,可以尝试奥斯卡·王尔德、马克·吐温或威尔·罗杰斯,并押注多萝西·帕克。 百搭、包罗万象的“不匹配”是永恒的博学家阿农,他意外地获得了阿农教授的终身教职。 由此引出了一个关于搜索引擎危害的警示故事。
“阿农教授”,我原以为是我发明的,作为所有未署名智慧的显而易见的假定来源,在 Google 搜索时出现了 70 多个匹配项。 忽略以 Anonymous 署名的博主,然后被讽刺地称为“匿名教授”,并忽略了苏格兰(可能?)阿农模拟大学的 A. N. Other 博士和阿农教授,我们最终确实找到了一位真正的在世学者。 他被引述为阿农·蒙舒沃教授,内梅亨大学的一位领先的教育学家(您可以查阅——这不太像教育家),荷兰。 我觉得很搞笑。 进一步的研究解开了谜团:他实际上是安东·蒙舒沃。 一篇关于教育学历史的网络论文中的拼写错误引发了其他对我的假想专家的引用。 毫无疑问,你们都会有自己与网络高噪声信号比率的亲身经历。
理想情况下,我们应该检查所有来源:每种可用语言的象形文字、手稿、印刷品和视听资料(更不用说安吉丽娜·朱莉躯干上纹的拉丁文座右铭)。7 人们承诺,匹配声音和图片“即将到来!” 我们还必须考虑语义变化; 寻求要旨,而不是匹配确切的短语。 是的,这里有一个主要的症结所在。
例如,我的引言开头被查理·齐默曼归因于喜剧演员杰克·本尼,他实际上俏皮地说,“如果我不能把它带走,我拒绝去”,这对于人类来说是一个足够接近的匹配,即使它对自动化搜索引擎提出了挑战。 但是,请暂停,杰克·本尼的众多剧本作者中,谁对之前的说法拥有优先权? 同样,谁写了弗雷德·艾伦不太出名的回应,“如果你能把它带走,它就会融化!” 然而,对字面字符串匹配的天真 grepping 并不能完全解决或解释杰克·本尼的引言。 还需要更广泛的背景,例如,从乔治·S·考夫曼 1937 年的小说和弗兰克·卡普拉的电影版普及的早期大萧条时期流行语“你无法带走它”开始。 这是复杂的背景,对某些人来说意味着享乐主义:趁你还能活的时候尽情享受,暗示你可能“哪里也去不了”。 比较愤世嫉俗的工会赞美诗,“努力工作和祈祷,以干草为生; 你死后会在天堂得到馅饼。”
然而,其他人可能会将其解读为对消费主义的警告,并支持比尔·盖茨广受欢迎的慈善事业,这源于上述消费主义。 我可以接受这种悖论,因为我参观了剑桥令人惊叹的新建(2001 年)威廉·盖茨计算机实验室,它取代了我在旧卡文迪什遗址的 20 世纪 50 年代的 EDSAC 数学实验室。 基督教的信息是,这样的善行会得到回报:“你无法把它带走,但你可以提前邮寄它。”
人们还可以找到杰克·本尼笑话的个人计算解释。 这让人想起亚当·奥斯本的第一台“便携式”PC:“你可以把它带走!”(好吧,在举重女神赫尼亚的帮助下)。 随着移动电话-PDA-MP3-相机-网络终端的出现,我们转向信用卡的便携性:“出门别忘了带上它。” 我们知道谁拥有版权,但谁先说了这句话?
斯坦·凯利-布特尔(http://www.feniks.com/skb/; http://www.sarcheck.com),出生于英国利物浦,20 世纪 50 年代在剑桥大学攻读纯数学,然后在开创性的 EDSAC I 上研究了计算机科学的杂质。 他的许多著作包括《魔鬼的 DP 词典》(麦格劳-希尔出版社,1981 年)、《理解 Unix》(Sybex 出版社,1994 年)以及最近的电子书《计算机语言——斯坦·凯利-布特尔读者》(http://tinyurl.com/ab68)。 《软件开发杂志》已将他评为首届年度斯坦·凯利-布特尔电子技术奖的获得者,以表彰他在“技术和文学方面的终身成就”。 诺贝尔奖和图灵奖都未能获得如此珍贵的同名认可。 在他的艺名斯坦·凯利下,他还享有作为歌手和词曲作者的并行职业生涯。
最初发表于 Queue 第 4 卷,第 8 期——
在 数字图书馆 中评论本文
凯瑟琳·海耶斯,大卫·马龙 - 质疑评估非加密哈希函数的标准
虽然加密和非加密哈希函数无处不在,但在它们的设计方式上似乎存在差距。 存在许多由各种安全要求驱动的加密哈希标准,但在非加密方面,存在一定的民间传说,尽管哈希函数历史悠久,但尚未得到充分探索。 虽然针对真实世界数据集的均匀分布很有意义,但当面对具有特定模式的数据集时,这可能是一个挑战。
妮可·福斯格伦,埃里尼·卡利亚姆瓦库,艾比·野田,米凯拉·格雷勒,布莱恩·霍克,玛格丽特-安妮·斯托里 - DevEx 在行动
随着领导者在财政紧缩和人工智能等转型技术的背景下寻求优化软件交付,DevEx(开发者体验)在许多软件组织中越来越受到关注。 技术领导者直观地接受良好的开发者体验能够实现更有效的软件交付和开发者幸福感。 然而,在许多组织中,改进 DevEx 的拟议举措和投资难以获得支持,因为业务利益相关者质疑改进的价值主张。
若昂·瓦拉豪,安东尼奥·特里戈,米格尔·阿尔梅达 - 低代码开发生产力
本文旨在通过展示使用基于代码、低代码和极端低代码技术进行的实验室实验结果来研究生产力差异,从而为该主题提供新的见解。 低代码技术已清楚地显示出更高的生产力水平,为低代码在短期/中期内主导软件开发主流提供了强有力的论据。 本文报告了程序和协议、结果、局限性和未来研究的机会。
伊瓦尔·雅各布森,阿利斯泰尔·科伯恩 - 用例至关重要
虽然软件行业是一个快节奏且令人兴奋的世界,其中不断开发新的工具、技术和技巧来服务于商业和社会,但它也很健忘。 在其快速前进的过程中,它容易受到时尚的突发奇想的影响,并且可能会忘记或忽略已证实的解决其面临的一些永恒问题的方法。 用例,最早于 1986 年引入,后来普及,就是这些已证实的解决方案之一。