查找信息并组织信息以便可以被找到是任何公司知识管理战略的两个关键方面。几乎每个人都熟悉使用网络搜索引擎进行搜索,以及一旦到达特定网站后使用搜索界面进行搜索的体验。(您甚至可能已经注意到,后者的效果通常不如前者。)在您获得一系列搜索结果后,您通常会花费大量时间跟踪链接,等待页面下载,阅读页面以查看其是否包含您想要的内容,确定它没有,后退以尝试另一个链接,决定尝试另一种措辞您的请求,等等。最终您可能会找到您想要的东西,或者您最终可能会放弃并决定找不到它。为什么这如此困难?
自从我还是研究生并参加了我的第一门信息检索课程以来,我就一直在问自己这个问题。我震惊地发现信息检索系统实际上做了什么。我期望他们理解我要求的是什么,并找到关于该主题的文档。他们所做的是计算单词并推动数字通过方程式来计算排名。
从那时起,信息检索研究人员探索了许多技术,但现代文档检索系统仍然倾向于成为粗钝的工具,检索到许多不相关的文档(精确率错误)并遗漏了许多相关的文档(召回率错误)。用户被留下了重要的任务,即阅读或扫描检索到的结果,以确定它们是否真的包含所寻求的信息,并弄清楚是否以及如何重新措辞请求,以查看是否遗漏了任何相关文档。
本文描述了我多年思考这些问题以及在太阳微系统实验室进行的一个研究项目中所学到的知识,该项目结合了人类和计算机各自的优势,在一个基于知识的系统中帮助人们查找信息。
我一直在尝试开发更接近我最初假设的系统,专注于帮助人们找到特定的信息,而不仅仅是文档。我发现了一些有趣的方法,使用了语言学和认知科学的一些见解、几种知识以及一些新的算法。这些技术比传统技术需要更多的计算,但是如果可以通过花费更多时间变得更智能来使搜索引擎更有帮助,那么搜索引擎速度的降低可以通过查找所需内容速度的提高来弥补。
使搜索变得困难的问题之一是,人们经常使用与他们需要查找的内容中使用的术语不同的术语来请求信息。研究人员已经探索了各种技术来解决这个问题,其中一些技术使用了各种知识。我一直在努力理解,为了在你所要求的和你想要的之间建立联系,需要哪些种类的知识。我通过捕捉人们处于我称之为“信息寻求状态”的状态,并用他们自己的话写下他们说他们正在寻找什么来开始研究这个问题。然后,我尝试捕捉他们最终找到的内容,并对请求和结果之间的关系进行语言分析。两种重要的关系显而易见:形态关系和语义关系(我将直接对此进行更多说明)。
在我的职业生涯早期,我为 NASA 载人航天中心构建了一个问答系统,以回答有关阿波罗 11 号月球岩石的问题。除了回答诸如“高碱岩中硅的平均浓度是多少?”之类的英语问题(它是通过理解问题的结构然后计算答案来完成的)之外,该系统还包括对其数据提取来源的文章的交叉引用,以及用于搜索这些文章的关键词搜索功能。关键词是从文本中提取的,采用的是国防文献中心开发的自动提取技术。我们遇到的一个问题是,有一篇文章以短语“酸性玻璃”索引,另一篇文章以短语“酸性玻璃”索引,而系统不知道这些短语和这些文章彼此之间有任何关系。
酸性和酸性之间的关系是形态的(形态学是对单词如何形成的语言学研究),因为单词“酸性”是通过在单词“酸”后添加后缀“性”派生而来的。信息检索系统通常通过使用一种称为词干提取的技术来处理术语之间的形态关系,该技术包括从单词中删除已识别的后缀(可能重复删除),直到剩下残余或词干。在这种情况下,从“酸性”中删除“性”会导致词干“酸”。
其想法是通过它们包含的单词的词干来索引文档,并且仅使用查询中单词的词干进行搜索。因此,文档和查询中的所有单词都被简化为标准形式(词干),可以直接匹配。用户可以获得与查询术语形态相关的的所有单词的匹配项,而系统具有简单的匹配标准。在前面的示例中,短语“酸性玻璃”将被标准化为与“酸性玻璃”相同的词干,并且两个文档都将在同一短语下索引。
词干提取的局限性。虽然词干提取技术很优雅并且具有简单的匹配标准,但它存在几个问题——其中之一是词干提取有时会犯错。它可能会将不相关的单词简化为相同的词干,并且可能会无法将相关的单词简化为共同的词干。例如,“computing”简化为“comput”,这与单词“compute”不同,因此词干提取器将最后的“e”视为后缀并将其从“compute”中删除以获得共同的词干“comput”。但有时,最后的“e”很重要,例如“cap”与“cape”的情况,因此词干提取器必须决定是否删除它。在不了解存在哪些单词的情况下,词干提取器将不可避免地在某些情况下出错。在我测试过的一个词干提取器中,单词“copper”、“cop”、“cope”和“copulate”都简化为词干“cop”。另一个词干提取器认为“uncapable”和“uncapped”具有相同的词干“uncap”。
大多数词干提取器都是启发式努力,未能充分理解语言的形态。例如,在前面的示例中,“copper”不可能来自“cope”,因为只会加倍最后一个字母,而“uncapable”不可能来自“uncap”,因为在添加“able”之前,最后的“p”必须加倍。此外,词干提取器通常只处理后缀,因此无法正确分析“un++capable”。处理前缀以及后缀要复杂得多,并且更容易产生错误分析,因为它需要解决关于哪个词缀先应用的选项(例如,“un++capable”与“uncap++able”)。
即使是正确的词干提取也会丢失信息,消除用户区分单词不同形式的能力。如果“酸性玻璃”的含义与“酸性玻璃”略有不同,则用户将被阻止表达这种差异。想要询问主观性的用户将被迫处理关于“subjects”、“subjected”和“subjection”的匹配项。
基于词典的形态学。Robert Krovetz 对词干提取进行了出色的讨论,并论证了使用词典作为额外知识来源的优点。1 Krovetz 实施了一种改进的词干提取器,该词干提取器使用机器可读的英语词典来恢复单词的正确结尾,并在生成词典中存在的单词时停止删除后缀。他探索了这种想法的几种变体,并表明这种方法通常优于标准词干提取器的性能。他改进的词干提取器使用了包含 27,855 个单词的商业词典,并分析了 106 个后缀。
我也一直在使用一个形态引擎2,该引擎分析前缀和后缀,以及词汇复合词(例如“bitmap”和“replybuffer”)。它使用为自然语言解析开发的词典,并且它会自动为未知单词构建新的词汇条目。这些条目,就像已知单词的条目一样,捕获并表示有关单词的信息,例如其句法类别(名词、动词、形容词等)、其形态结构及其与其他单词的关系。词典用于处理例外情况,并测试假设的基本形式是否满足规则应用的句法(有时是语义)条件。词典还被解析算法用于分析短语和句子,并且它被用作单词之间语义和形态关系的来源。
此形态引擎当前有 1,724 条基于知识的规则,这些规则分析 690 个前缀和 276 个后缀。它的规则捕捉了英语形态的许多细微之处,包括诸如加倍最后一个字母和插入最后的“e”之类的基本知识,并且它具有启发式标准,用于从有时在语言上可能的许多变体中选择单词的首选分析。通过将形态引擎应用于已知单词列表和几个专有名词列表,从 40,000 个条目的核心自动生成超过 250,000 个单词形式的有效词典。
已知单词词典很重要的一个原因是,如果没有它,许多普通单词会被错误地分析为形态上派生自其他不相关的单词。例如,“delegate”并不意味着去除某物的腿(de+leg+ate),而“ratify”并不意味着感染啮齿动物(rat+ify)。表 1 说明了数千个普通单词中的一些更有趣的情况,如果词典不知道它们的含义,则可能会收到错误的形态分析。
与形态关系一样,语义关系可能是建立你所要求的和你所需要的之间的联系所必需的。语义关系与单词的含义如何相关有关。例如,系统需要知道“moon”和“lunar”之间的语义关系,才能检索到以“lunar rocks”索引的文档,以响应对“moon rocks”的请求。语义关系通常通过同义词词库在信息检索系统中得到解决。在同义词词库中,单词分为“同义词集”,每个同义词集包含具有相同含义的单词。这些同义词集可用于通过添加查询术语的所有同义词来扩展查询,以便也会找到涉及这些同义词的文档。例如,“moon”和“lunar”可以放在一个同义词集中,以便使用术语“moon”的查询将使用术语“lunar”扩展,反之亦然。
同义词是不够的。尝试使用同义词词库自动扩展查询通常无法提高检索系统的有效性,并且经常会降低结果。部分问题是,英语(或任何其他语言)中几乎不存在真正的同义词,并且此类词库中同义词集的成员在含义上通常存在显着差异。例如,{汽车,轿车,卡车,公共汽车,出租车,机动车辆} 可能会在这样的词库中被归为同义词。如果您的查询是针对“机动车辆”,那么使用此集合进行扩展可能会产生有用的结果,但如果您的查询是针对“轿车”,您可能不会很高兴获得关于卡车和公共汽车的匹配项。问题是,其中一些术语比其他术语更通用。选择将此类术语视为同义词相当于将查询概括为差异无关紧要的抽象级别。不幸的是,对于所有信息需求,没有哪个概括级别是正确的。
通用性和蕴含性。更好的系统是能够捕捉和利用通用性关系的系统,以便用户可以在所需的任何通用性级别提出问题。我一直在探索使用一种蕴含技术3 来解决这个问题。其思想是,通用术语蕴含特定术语,并且术语可以基于这些蕴含关系组织成结构化的概念分类法。形式上,术语蕴含自身、任何更具体的术语以及它可能拥有的任何真正的同义词。搜索时,请求中的术语将匹配目标中任何被请求术语蕴含的术语。因此,对“机动车辆”的请求将检索所有类型的机动车辆,而对“汽车”的请求将检索轿车和出租车,但不会检索卡车和公共汽车。您还可以将词根视为蕴含其派生和屈折形式,以便“car”将蕴含“cars”。通过这种方式,可以将语义关系和形态关系以统一、直观的框架结合起来。
概念索引。为了探索蕴含技术可以提高在线搜索有效性的假设,我构建了一个系统,用于从文本中提取单词和短语,并自动将它们吸收到由蕴含关系组织的结构化概念分类法中。由此产生的结构,我称之为概念索引,结果证明是人们浏览的直观结构,并且它揭示了索引材料和查询中出现的单词和短语之间许多有趣的关系。例如,当在商业目录中搜索“汽车清洁”时,它找到了与“洗车”的关系,因为它从其词典中知道汽车是一种汽车,而清洗是一种清洁。它能够推断出短语“汽车清洁”的每个部分都蕴含短语“洗车”的相应部分,因此前一个概念蕴含后一个概念。
查看概念分类法。我注意到人们通常会在他们感兴趣的通用性级别提出问题,甚至没有考虑它。因此,自动概括用户的查询通常是一个坏主意。然而,有时有人会错过概括,在这种情况下,能够看到查询术语在概念分类法中的位置可能非常有用。例如,当我在关于动物的文章集合中询问“棕色皮毛”时,我只找到了三个被蕴含的短语,但我看到我的请求已在分类法中归类为“棕色外套”。图 1 显示了我通过将我的请求概括为“棕色外套”而找到的高度相关的概念。如果看不到概念分类法,我可能不会想到这种概括,并且会错过很多我想要的东西。
特定段落检索。在概念索引的实验中,我观察到有时文本相关段落中的单词不是在一个短语中相关的,该短语会被查询蕴含。例如,“棕色外套”查询没有找到包含句子“外套是红棕色”的文章,因为该句子不包含被“棕色外套”蕴含的显式短语。有时,相关信息分散在几个句子中。
为了处理这种情况,我扩展了我的系统,使其能够查找请求的所有(或几乎所有)元素彼此靠近并且几乎处于相同关系中的段落。来自概念分类法的关于概念在文档中出现位置的信息被用来确定此类段落的存在位置,并根据它们与输入请求的近似程度对它们进行排名。这种技术,我称之为特定段落检索,结果证明对于帮助人们查找信息特别有效。它不仅可以查找文档,还可以查找和显示文档中最有可能包含所寻求信息的段落。
特定段落检索算法通过惩罚分数对段落进行排名,该惩罚分数是从许多因素计算得出的,这些因素表达了相关段落与输入请求不同的方式。随着段落中的单词越来越远,它们以期望的方式相关的可能性降低,因此计算出的惩罚与介入单词的数量成正比。同样,如果段落中的单词顺序与查询中的单词顺序不同,则计算出的惩罚与存在的单词重新排序量成正比。如果段落中的术语在形态上与查询中的相应术语不同,或者是语义上更具体的术语,则会添加少量惩罚,以稍微偏向于完全匹配。如果查询的术语之一在段落中没有匹配项,则该段落会受到显着的惩罚,该惩罚可能取决于缺失术语的类型。
我为这些因素选择了似乎合理的系数,并发现由此产生的基于惩罚的分数具有高度区分性,因此最相关的段落确实倾向于首先排名。在我将该系统应用于数十个不同的主题领域并持续获得良好结果之后,我开始更多地信任那些最初的猜测,而不是我会信任针对集合调整的值。
图 2 和图 3 说明了特定段落检索算法相对于传统文档检索技术的优势。这些图显示了我的同事 Stephen Green 开发的高级搜索引擎的输出,该搜索引擎的产品化版本现已集成到 Sun 的 Portal 和 Web 服务器产品中。该集合包含几个千兆字节的新闻文章。该引擎支持多个查询运算符,并且在未指定运算符时将应用默认运算符。在图 2 中,默认运算符是传统的加权布尔 AND 运算符。在图 3 中,默认运算符是我们基于惩罚的段落检索算法的实现。在这两种情况下,都使用了我们段落检索算法的改编版来生成每个匹配项显示的摘要。这使用户可以快速确定匹配项何时不相关并在列表中跳过它。
在布尔 AND 案例中,您可以看到查询“黑白狗”返回了一个包含所有请求术语的文档,但它们的关系与黑白狗无关。另一方面,使用段落运算符,第一个匹配项包含短语“黑白狗”的完全匹配,并且直接切中要点。第二个匹配项不相关,因为它受到惩罚,因为术语“dogs”是复数,与短语“黑白”分开,并且顺序错误。
这对示例说明了基于惩罚的排名在区分近似匹配项方面的强度,以及传统方法如何对单词之间的关系不敏感。段落运算符找到的两个匹配项都将在 AND 运算符的匹配项列表中,但它们在列表中排名靠后,并且在前十个选项中不可见。这是因为传统方法在计算排名时为术语分配权重的方式。
知识与搜索。从历史上看,许多尝试使用自然语言处理来改进信息检索的尝试要么收效甚微,要么实际上使情况变得更糟。对于查询的形态和语义扩展以及单词的词性消除歧义,都观察到了这一点。一个根本问题是,诸如同义词扩展之类的有可能提高召回率(检索到的相关文档的比例)的技术也倾向于降低精确率(检索到的文档中相关的比例),而旨在提高精确率的技术倾向于降低召回率。
值得注意的是,在我所在小组的早期实验之一中,将特定段落检索算法与传统文档检索进行比较时,我们发现添加语义知识并使用基于惩罚的段落检索方法对未知单词进行形态分析可以改进结果,而将一些相同的信息纳入商业搜索引擎的同义词词库中则使情况变得更糟。来自同义词词库的语义扩展找到了一些额外的相关文档,但它找到了更大数量的不相关文档,这些文档将好的匹配项挤出了前十个位置。基于惩罚的方法由于其更具区分性的排名,似乎能够从额外的召回率中获益,而不会损失精确率。
例如,对于“黑白狗”查询,使用语义扩展和 PASSAGE 运算符,系统找到了短语“黑白杂种狗”作为第二个匹配项(因为词典知道杂种狗是一种狗)。使用 AND 运算符执行相同的操作在前十个选项中没有产生相关的匹配项。现在的几项实验表明,使用这种段落检索方法,添加知识可以改进结果。4
过去,一些研究人员探索过段落检索方法,但这些方法通常基于将材料分段为段落或句子,然后像索引和搜索小文档一样索引和搜索这些段落。与这些早期系统不同,我一直在探索的特定段落检索方法动态地识别响应输入查询的段落。段落的大小取决于查询和匹配项的质量。通常,对于给定的查询,随着您在匹配项列表中向下移动,段落会变得更长且相关性降低,并且当惩罚变得足够高且匹配段落不再相关时,您可以停止查找。
不同方法的优缺点。我们首次将特定段落检索与传统文档检索进行比较的实验表明,在前十个选项中找到的相关文档数量方面,不使用任何形态或语义知识的段落检索算法与商业搜索引擎大致相当。每种方法都找到了另一种方法没有找到的相关文档。
直观地看,当查询中术语之间的关系很重要或当寻求文档中的某些特定信息时,基于惩罚的方法找到了更好的匹配项。当文档中仅出现查询术语就足够并且文档的整体主题受到关注时,传统技术找到了更多相关文档。两种技术都有其用途,具体取决于信息需求的性质。
我们发现,基于惩罚的技术适用于短查询和短目标,例如文档标题、章节标题和节标题,在这些方面,传统方法效果不佳。传统的单词计数技术通常需要至少段落长度的目标才能获得牵引力,并且已被证明如果它们也可以获得段落大小的查询,则效果最佳。
表面上,特定段落检索类似于短语匹配和邻近匹配,但它蕴含了这两者,并且做得更多。就好像系统自动以各种不同的方式询问您的查询一样——包括完全短语、重新排序的短语、有序邻近、无序邻近、通过删除单词进行概括、替换形态变体以及替换语义相关术语。它会自动找到所有这些的结果,并对它们进行排名,以便最佳结果排在最前面。
如果您没有段落检索运算符,那么您可以使用邻近和短语运算符来获得一些相同的好处,但排名不太有用,并且在措辞和重新措辞查询上花费了更多的思考和精力。通常,段落运算符会找到使用更具体的运算符会错过的有用匹配项。例如,使用短语搜索像“William Woods”这样的名称将避免这两个术语不相邻的文档,但会错过诸如“William A. Woods”之类的出现。
段落运算符还有助于解决词义歧义问题,因为当段落中的术语像在查询中一样在文本中相关时,它们也更可能以相同的含义使用。例如,使用段落运算符搜索“bill woods”更可能找到“bill”作为名称(而不是发票),当段落的惩罚较低时(例如,很少或没有介入单词)。
搜索网络与搜索网站。正如我之前提到的,搜索网站的效果通常不如搜索整个网络。这有几个原因。原因之一是,网络非常庞大,几乎所有内容都在那里,以几乎所有可能的方式表达,因此您的请求更有可能找到直接匹配项。几乎任何表达查询的方式都会找到数千个匹配项。对于网络搜索引擎,重要的是选择少量这些匹配项来显示,并尽可能快速且廉价地进行查询处理。释义支持通常不被认为是重要的,并且需要额外的时间和精力。
另一方面,当搜索网站或公司知识库时,您需要查找的内容可能以特定方式措辞,并且可能需要形态和语义释义支持才能找到它。例如,在我们搜索引擎的实验版本中,索引 Sun Labs 网站,查询“clockless design”检索到了涉及“asynchronous design”的段落。概念索引显示,该网站上只有两份文档提到了“clockless”,而 142 份提到了“asynchronous”。如果您在没有释义支持的情况下查找此信息,您可能会在不知道自己错过了大部分内容的情况下离开。
原则上,可以使用特定段落检索技术将相同类型的语义和形态扩展应用于整个网络,但这并不是我的主要目标。网络非常庞大,如果不尝试,很难预测会发生什么。词义歧义可能会有更多问题,而全球概念分类法将令人敬畏。这将是一个有趣的挑战。当然,成本将高于当前的 Web 搜索引擎,并且可能不符合其商业模式。
特定段落检索算法适用于大规模应用,因为它允许细分集合并分布搜索,结果易于整理(因为惩罚分数与集合统计无关)。从理论上讲,这可以用于一种联合 Web 搜索,其中内容所有者可以提供自己的索引和搜索,并且可以在内容更改时更新其索引。这将解决 Web 搜索的一个根本问题:永无止境地抓取 Web,试图保持索引的最新状态。
有趣的是,设想一个由跨越系统网络(可能是对等网络)连接起来的联邦,该网络分发查询并整理结果。联邦的一些成员可能是索引自己内容的大型内容提供商,而另一些成员可能是像当前 Web 搜索引擎这样的基于爬虫的服务。当然,这将需要目前激烈的竞争对手之间前所未有的合作,这使得这种情况在目前看来可能只是理论上的。
进一步的挑战。特定段落检索是一种启发式技术,它与段落中的术语是否以与查询中相同的方式相关具有相当好的相关性,而无需更复杂的系统来解析查询和段落并理解所有术语在句法上是如何相关的。它为人们提供了一种有用的方式来查找特定问题的答案,但它依赖于人类的判断来识别找到答案时。我对这种技术的大部分研究都集中在查找相关段落和显示信息上,以便使人类用户能够快速做出此判断。
超越查找可能包含答案的段落之外,还存在理解段落是否包含答案以及答案是什么的挑战。有时,这可能需要相当多的基于知识的推理。
例如,如果一篇文章包含句子“参议员丹尼尔·帕特里克·莫伊尼汉告诉他的同事,他想通过采用术语‘floccinaucinihilipilification’并添加后缀‘-ism’来创造英语中最长的单词”,那么特定段落检索算法可以在响应以下任何查询时找到它:英语中最长的单词;英语中最长的单词;最长的英语单词——甚至英语中最长的单词是什么。然而,从这句话及其周围的上下文中推断出“floccinaucinihilipilification”是一个可能的答案,则需要进行重要的推理。(顺便说一句,这个词被报告为《牛津英语词典》第一版中最长的单词,在 1994 年帕特里克·奥布莱恩的小说《怒海争锋》中使用过,最近的电影就是根据这部小说改编的。)
如果您可以理解段落是否包含答案以及答案是什么,那么下一步将是将来自多个来源的信息项组合起来以推断答案。例如,如果另一篇文章包含句子“自 1961 年以来,《韦氏第三版新国际词典》中最长的单词一直是‘pneumonoultramicroscopicsilicovolcanoconiosis’”,那么您可以得出结论,这是一个更好的答案。
这些任务将需要能够确定段落在说什么并使用由此产生的知识进行推理的系统,并且它们将需要额外的知识来源和自动化推理的进步。一个致力于问答的活跃研究领域正在追求这些目标。
1. Krovetz, R. 将形态学视为推理过程。第 16 届年度国际 -SIGIR 信息检索研究与开发会议论文集 (1993), 191202。(它也以 UMass 技术报告 TR-93-36 的形式出现。)
2. Woods, W. A. 用于强大词汇覆盖的积极形态学,ANLP-2000 会议论文集,西雅图,华盛顿州,2000 年 5 月 1-3 日。(初步版本:技术报告 SMLI TR-99-82,太阳微系统实验室,山景城,加利福尼亚州,1999 年 12 月;http://www.sun.com/research/techrep/1999/abstract-82.html。)
3. Woods, W. A. 理解蕴含和分类法:进步框架。在 Sowa, J. (Ed.),《语义网络原理:知识表示探索》中。Morgan Kaufmann,圣马特奥:加利福尼亚州,1991 年,45-94 页。
4. Woods, W. A., Bookman, L. A., Houston, A., Kuhns, R. J., Martin, P., 和 Green, S. 语言知识可以改进信息检索。ANLP-2000 会议论文集,西雅图,华盛顿州,2000 年 5 月 1-3 日;http://research.sun.com/features/tenyears/volcd/papers/woods.htm(作者介绍的最终版本)。
威廉·A·伍兹(WILLIAM A. WOODS)是 Sun Microsystems Laboratories(位于马萨诸塞州伯灵顿)的首席科学家和杰出工程师。他在自然语言处理、连续语音理解和知识表示方面的研究享誉国际,目前他对改进人们获取信息的技术很感兴趣。他于哈佛大学获得博士学位,并在那里担任助理教授,后来担任戈登·麦凯计算机科学实践教授。他曾任计算语言学协会主席、美国人工智能协会会士和美国科学促进会会士。
© 2004 1542-7730/04/0400 $5.00
最初发表于 Queue vol. 2, no. 2—
在 数字图书馆 中评论这篇文章
拉塔尼娅·斯威尼(Latanya Sweeney) - 在线广告投放中的歧视
在搜索带有黑人发音的名字时,比搜索带有白人发音的名字时,是否更频繁地出现暗示逮捕记录的在线广告? 什么是黑人发音的名字或白人发音的名字? 要被认为是歧视,一个广告对一个种族群体产生不利影响的次数需要多多少次? 在线活动是否如此普遍,以至于计算机科学家必须考虑技术设计中的结构性种族主义等社会后果? 如果是这样,这项技术该如何构建? 让我们深入科学地研究在线广告投放,以找到答案。
瑞安·巴罗斯(Ryan Barrows),吉姆·特拉维索(Jim Traverso) - 将搜索视为不可或缺的一部分
大多数公司必须利用其数据来获得竞争优势。知识工作者可用的数据量在过去几年中显着增长,虽然其中很大一部分存在于大型数据库中,但重要的子集仅以非结构化或半结构化数据的形式存在。如果没有正确的系统,这会导致信噪比持续恶化,从而为试图快速定位信息的繁忙用户制造障碍。三种类型的企业搜索解决方案有助于改善知识发现。
拉玛纳·饶(Ramana Rao) - 从信息检索到搜索,及更远
自范内瓦·布什(Vannevar Bush)的开创性文章《诚如所思》(’As We May Think,’)描绘了一位机器辅助学者的形象以来,已经过去了近 60 年,“一种个人在其中存储他所有的书籍、记录和通信的设备,并且该设备被机械化,以便可以以极快的速度和灵活性进行查阅。”
迈克·卡法雷拉(Mike Cafarella),道格·卡廷(Doug Cutting) - 构建 Nutch:开源搜索
搜索引擎对于互联网的使用至关重要,就像网络基础设施的任何其他部分一样,但它们与其他组件有两个重要的不同之处。首先,它们的内部运作是秘密的,不像 DNS(域名系统)的运作那样。其次,它们掌握着政治和文化力量,因为用户越来越依赖它们来浏览在线内容。