从信息检索到搜索及更 आगे -

2004年6月14日
第2卷，第3期

从信息检索到搜索及更 आगे

自60年代以来，搜索已经走了很长的路，但我们是否才刚刚开始？

Ramana Rao，Inxight Software

自从范内瓦尔·布什在《大西洋月刊》上发表了具有开创性的文章《诚如所思》以来，已经过去了近60年，文章描绘了一位学者在机器的帮助下的形象，“一种个人可以在其中存储他所有的书籍、记录和通信的设备，并且该设备是机械化的，因此可以以极快的速度和灵活性进行查阅。” 这其中清晰地展现了数百万人现在称为搜索的技术，以及数万名专家称为信息检索（IR）的技术。从1945年的那个时间点到现在，每小时大约提供2500万次网络搜索服务，已经发生了许多事情。

在20世纪80年代中期，我在施乐帕克研究中心亲眼目睹了一项与搜索相关的研究工作的开始，这项工作已经吸引我近20年。到那时，搜索和桌面隐喻已经成为重要的商业力量。至少对许多研究人员来说，也很清楚，随着网络信息的数量增长，以及更广泛的用户和用途变得普遍，搜索和图形用户界面都将达到它们的极限。然而，快速增长的处理能力和图形能力将使我们能够构建信息工作空间，这些工作空间可以在允许人们使用个人、组织、商业和公共信息方面走得更远。

在本文中，我将带您回顾搜索的历史，从1960年代开始，到1980年代在帕克研究中心的那一点，再到目前互联网上信息的主流用途。纵观几十年，两种对立清楚地显现出来：

• 第一种是对立是，一方面关注狭隘定义的技术方法，另一方面关注对整个问题集和可能的解决方案的更广泛理解。

• 第二种是对立是，在研究中制定想法与在商业上推广它们之间的对比。

作为曾在不同时期站在其中一个阵营的人，我不认为这些是“非此即彼”的选择，而更像是各自支持为更多人改善事物这一长期目标的导向。进步既需要完善解决构成性问题的方法和技术，也需要工程技术，使其能够恰当地融入实际工作并在现实世界中被采用。

1960年代：信息检索的T型车

1950年代的战后时期以科学和计算领域的飞速发展为标志，随之而来的是科学文献的急剧增长。面对组织不断增长的科学内容库及其快速扩展的词汇的挑战，图书管理员和信息科学家努力应用编目和索引理论。与此同时，信息和计算机科学家开始探索索引和检索内容的机械化支持。

信息检索，在1952年被创造为一个术语，在1958年于国际科学信息会议上开始作为一个学科加速发展。毫不奇怪，考虑到图书馆隐喻的背景，信息检索系统的基本架构基于两个主要功能，这两个功能对应于组织图书馆和在图书馆中查找文档的传统活动。同样不足为奇的是，用户与检索系统交互的模型类似于与图书管理员交互的传统模型。用户说出他们想要什么，系统交付它。

为了更精确地构建此模型以支持系统构建，该模型是用户——带着一些信息需求——将请求构造为查询，系统返回包含相关内容的文档作为结果列表。简而言之，该模型（见图1）是QIRO（查询输入，结果输出）。

从一开始，领先的研究人员就非常清楚将此模型付诸实践的挑战。用户和系统都必须以仅近似理想模型的方式运行。用户通常不会提前完全理解他们自己的信息需求，否则他们无法以适合系统处理的方式表达他们的需求。因此，系统缺乏完整的查询或对文档的任何真实理解，无法有效地匹配相关文档。人类语言的表面可变性和歧义性只会增加这些困难。

如何将查询与输出匹配的内在挑战导致信息检索研究人员专注于相关性排序，其中结果根据匹配程度排序。虽然布尔匹配对于关系数据的结构化表在概念上很简单，但对于以结构丰富的自然语言表达的文档来说，情况完全不同。

在1960年代，信息检索系统的评估框架也已确定。它基于两个关键指标：精确率和召回率。精确率是您返回的总结果集中实际与您相关的文档的百分比；您的返回集可能包含100个文档，但如果返回的文档中只有15个是相关的，则系统具有低精确率。召回率是实际返回的所有相关文档的百分比；您的返回集是12个文档，但您知道还有5,236个相关文档在那里。直观地讲，精确率是关于结果集的干净程度，而召回率是关于结果集的完整程度。这两个度量往往是负相关的，并且系统可能会偏向其中一个。

在线目录形式的搜索系统在1970年代首次商业化。这些早期的在线搜索系统——例如Dialog——专注于搜索书目记录、参考文献或替代品，而不是实际文档。它们使用布尔查询语言，这增加了系统用户（通常是图书管理员）的负担。全文系统直到1980年代后期才可用——而相关性排序在1990年代随着网络搜索而突飞猛进。在所有这一切中，基本的QIRO交互模型在很大程度上保持不变。

然而，即使在1960年代，也提出并实际研究了许多与更广泛的任务或交互风格相关的方法——包括分类、摘要、提取和可视化。布什的文章指出，信息在图书馆中找不到，是因为“索引系统的人为性”，并建议“关联线程”作为与内容交互的更有效方式。

经典搜索概念

架构

索引/搜索

交互

查询输入，结果输出（QIRO）

结果匹配

“相关性”

排名评估指标

精确率/召回率

1980年代：用户力量释放，新模型出现

在1980年代，个人计算真正起飞，紧随其后的是网络计算和图形用户界面，以及桌面隐喻。这种隐喻主要关注应用程序作为程序、文档、绘图等的编辑器。它还侧重于支持网络通信和对文件、打印和目录服务的访问。随着联网个人计算机在施乐公司的广泛部署，很容易看到即将到来的挑战。随着大量文档的出现和网络的增长，不仅在施乐内部，而且在互联网上也是如此，查找文件或资源变得困难。通常，您会有一种挥之不去的感觉，即在某个地方存在着可以为您节省大量工作的人或文档。

很容易预见到从文档创建到信息访问的转变——并且意识到桌面隐喻的导航界面不适用于查找在网络中扩散的相关文档。查看当时可用的信息检索研究和系统，同样清楚的是，QIRO模型有其局限性。除了已经概述的内在挑战之外，随着更广泛的用户和应用程序需要支持，还会出现其他困难。特别是，QIRO模型忽略了信息工作的许多现实，尤其是在网络和个人计算机的背景下：

• 检索自然是交互式的、迭代的，并且与其他活动交织在一起。通常，搜索过程会增强用户对其信息需求的理解以及最佳搜索方式或地点的理解。

• 用户不是试图查找文档本身，而是使用文档来完成一些更广泛的任务。检索嵌入在理解和分析信息的过程中，而这些过程又嵌入在更广泛的创建、学习、计划、操作和决策制定过程中。

• 用户需要访问许多不同的集合，这些集合在来源、权威性、质量、覆盖范围和形式方面具有不同的特征。大多数个人和组织集合自然是高度不同的文档的混乱累积，并且几乎没有时间或资源来组织或管理它们。

• 搜索服务和软件在功能、性能、界面、经济性和可用性方面差异很大。有效的检索取决于用户在可能性空间内形成有效的搜索策略，考虑来源（集合和服务）的特征以及与任务和设置相关的上下文因素。

帕克研究中心的智能信息访问项目形成了一个愿景，即将QIRO信息检索模型和图形桌面隐喻融合到一个信息工作空间中，如图2所示。越来越多的计算可以用于创建更丰富的错觉、进行更复杂的内容分析以及通过将这些过程联系在一起来支持更丰富的对话。

在帕克研究中心模型中，用户参与更大的工作流程，操作工作空间中的对象，从多个不同的来源检索信息单元。该模型侧重于许多关键思想：

• 搜索和浏览。 信息工作空间不仅支持搜索，还支持浏览。这两种对话风格具有互补的优势和劣势。每种都可以在不同种类和阶段的任务中使用。例如，QIRO风格的对话在它们有效时可能非常高效和有效，而在许多情况下，浏览可能更容易学习和使用。

• 文档空间和概念。信息宇宙包括整个层次结构，从所有来源到整个集合、文档列表和文档，包括文档部分、句子和单元概念。其他重要的区别包括个人、组织、商业和公共信息的维度，以及从混乱的累积到高度策划的集合的维度。

• 地图和摘要。信息空间的视觉地图既能帮助理解大量对象（无论它们代表来源、文档还是事实）的规则和独特模式和关系。此外，精心编写的结果和文档的预览、摘要和概括可以引导用户找到最相关的项目，并促进对所找到内容的快速理解。

• 索引和提取。 索引以支持典型的搜索对话是一种相对贫乏的内容分析形式。其他内容分析技术，基于语言分析和统计技术，为使用元信息标记内容提供了巨大的前景，这些元信息可用于组织集合或基于地图和摘要的浏览对话，以及用于新型文本挖掘应用程序。

• 记忆和重用。访问是一个长期发生的过程，因此历史捕获和重用以前的策略可能非常有价值。最好的方法是允许逐步改进和重用过去的工作，因为新的活动值得持续关注。因此，历史、过程和搜索管理是信息工作空间中重要的功能组成部分。

研究人员在帕克研究中心和可能其他十几个地方一直探索这些想法到1990年代。虽然商业努力主要致力于提供更丰富的工作空间和更好的信息检索功能，但商业世界专注于简单的交互来丰富网络上的新服务和信息。QIRO模型在网络搜索中取得了爆炸性的成功。现在，十多年后，数百万用户熟悉简单搜索的局限性，并且正在看到更广泛的信息工作空间想法的真正商业应用。

1990年代：搜索主流化，新模型商业化

1990年代，正如我们在1980年代预测的那样，从桌面计算机可以访问的信息来源激增。除了个人及其工作组创建和管理的文档外，现在还可以从企业内部的服务器和互联网上获得大量文档。此外，提供对书目引文、报纸和杂志文章、金融和商业数据以及更多内容的访问的商业和公共在线信息来源随着互联网的普及而进一步扩展。

虽然1970年代搜索的最初商业推动力是针对在线服务，但后来的努力提供了搜索作为软件包，应用于个人或组织内容。在1990年代，随着互联网和内联网的扩展，这两个方向都得到了推进。一种新型的在线搜索服务以网络搜索引擎的形式出现，专注于对全文进行搜索，以及对公共网络上可用的真正广泛而混乱的集合进行搜索。与此同时，以客户端-服务器软件形式提供的企业搜索变得更加普遍，以支持对内部Web服务器和文档存储库的访问。

1990年代的这两个搜索方向都没有超出QIRO模型。当然，人们对通过全文搜索提高相关性给予了一些关注，但对改进或扩展QIRO模型并没有给予太多关注。相反，商业努力主要集中在更广泛的部署和业务问题上。在网络搜索引擎的情况下，重点是覆盖范围、延迟、规模以及与提供公共网络内容搜索相关的其他问题。与此同时，企业搜索的主要关注点与典型的企业软件关注点相关，即为管理、集成、定制、客户端-服务器架构、API、安全性等提供完整的IT功能。

有趣的是，许多网络搜索业务——实际上，自1995年以来的连续网络搜索领导者（Infoseek、AltaVista、Inktomi、Fast和Google）——都试图通过向企业提供其网络搜索引擎的打包版本来跨越防火墙。毫不奇怪，当比较在线服务和企业搜索产品的主要关注点时，这些似乎都没有消灭现有的企业搜索产品领导者。

在过去的几年中，很容易看到许多信息工作空间的想法被吸收到商业努力中。随着技术设计思想的商业化，它们正在被“小部件化”或打包成市场功能类别，其中包括以下内容：

• 高级搜索： 许多公司（包括传统的搜索公司）已经开始整合更复杂的索引/匹配算法——许多算法相当旧，包括自动查询扩展——以及用于处理语言可变性和歧义性的语言和统计技术（例如，潜在语义索引）。

• 分类： 第一个广泛使用的非搜索功能是分类，它支持自动填充可搜索和可浏览的信息目录（通常称为分类法）以及分类法的创建和管理。

• 提取： 语言内容分析可用于从文档中提取特定元素。两种特别有价值的提取类型是实体提取和事实提取。实体提取涉及提取专有名词短语（例如，组织、人物和地点）。事实提取包括识别这些实体之间的关系，理解各种实体扮演的角色，以及识别关键事件。

• 可视化： 超出传统用户界面小部件的交互式工具提供了概述，以及在所有级别（从整个宇宙到特定集合，到结果集，一直到文档元素）的导航。

• 元搜索和联邦搜索： 可以通过多种方式支持对多个集合的搜索，最值得注意的是通过元搜索，提供对来自每个集合的模型的搜索以查找合适的集合，以及通过联邦搜索，将查询代理到多个搜索服务并组合结果。

• 摘要： 从文档中提取关键句子被许多人认为是理解特定文档的一种方式，但越来越常见的是发现应用程序不仅可以组合单个文档的提取信息视图，还可以组合结果集和整个集合的提取信息视图。

网络搜索服务和企业搜索产品都在整合这些功能中的一个或多个。虽然较大的网络服务和软件产品通常更保守，但我相信它们要么吸收这些想法，要么被那些吸收这些想法的产品超越。许多这些想法可以在本文资源部分列出的网站上尝试。

2020年展望

过去60年的搜索见证了研究中的想法最终在主流商业环境中被采用。尽管眼前的成本和业务需求可能迫使最初的商业化努力进入研究思想的有限版本，但最终计算能力的指数增长和支持更广泛受众的压力推动了更全面的一系列思想的采用。以下四个预测本质上阐述了一个更丰富、更广泛、更统一的信息交互模型，我相信这将在未来15年内成为教育、文化和组织现实的标准组成部分。

更丰富的用户信息空间模型

大量的 mainstream 受众将共享一个丰富的信息宇宙概念模型。这种模型在许多积极使用网络信息的人中已经很常见。该模型的核心方面是将信息本质上分层组织为宇宙、图书馆、集合、文档、文档部分、句子、概念和对象。与这种本质上的分层结构交叉的是各种关系，这些关系将被普遍理解，包括参考文献、归属和版本控制。一个关键方面是理解元信息在每个级别的作用，这与信息内容本身的使用同样重要。

该模型将支撑信息素养的通用标准，并且在新兴的网络信息城市化未来中生存和发展将需要一套新的技能。诸如“我应该在宇宙的哪个位置搜索？”以及“我应该如何浏览宇宙以积累我需要的信息？”等问题将在这个更广泛的概念框架中得到解答。

更丰富的信息使用功能

正如QIRO模型随着互联网技术的传播而成为主流一样，信息工作空间模型也将如此。信息工作空间中的交互将基于三个新的构造：

• 地图。 正如物理地图的情况一样，宇宙、集合和文档的概念和感知地图将成为理解总体结构和导航到特定兴趣领域的资源。

• 摘要。 精心设计的摘要将提供关于信息层次结构所有级别的任何对象的“一点点，但又不过多”的信息。

• 提取器。用于分析内容的操作员将允许用户探索文本并发现关系和模式，以及不寻常或独特的事件。

公共、商业和私人内容的检索系统都将采用标准地图、摘要和提取器。本质上，随着我们对信息空间的共享本体论变得更加复杂，我们对信息访问功能的期望也将如此。

基于开放基础设施的丰富信息工作空间

我们的信息工作空间最终将实现我们物理工作空间的丰富性、灵活性和自然性，同时整合数字范围和增强功能。这些工作空间将支持个人和协作信息活动，平滑地将信息访问与信息处理、综合和分析相结合。工作空间将是开放的，允许轻松组装标准、通用、专业和定制元素——地图、摘要和提取器——并将访问各种来源以及这些来源的标准模型。

IT演进的更广泛图景支持了开放性的必然性，IT演进是由大型组织不断增长的成本和日益增加的竞争压力驱动的。开放工作空间将成为可能，因为围绕软件环境的标准化允许灵活地集成界面、通信、计算和内容组件及服务。开源和新兴的托管模型将在信息访问功能方面发挥作用，就像它们在其他软件功能领域一样。所有这些因素，以及大规模和广泛受众解决方案复杂性的限制，将推动整合到一组标准服务和标准小部件、视图类型和信息访问对话。

语言语句的细粒度使用

60年来，搜索一直专注于帮助用户检索文档。这种计算的使用是一种“按牛走过的路铺路”模型，该模型基于信息的传统物理容器和图书馆中检索的传统模型。在这样的模型中，人类被留下来扫描、阅读、消化和以其他方式吸收书籍、期刊或文章的内容的任务。更广泛的模型肯定有助于形成更好的访问策略，以及更好地定位值得进一步关注的文档或文档部分，但还有更大的机会。

文本挖掘将赶上并最终超越传统的信息检索。这种追求模型始于当今在高度重视的目标应用（例如，反恐或药物发现）中使用的语言和统计文本处理，而无需克服机器对自然语言的完全理解的全部挑战。尽管我严重怀疑到2020年能否完全理解这个问题，但在此时限内，更集中的文本挖掘应用可能会变得司空见惯。

随着文本挖掘的兴起，我预见到计算使用的两个长期不同的历史的交汇，一个支持组织，另一个支持个人。企业数据计算——以大型机、关系数据库、ERP（企业资源计划）和其他企业应用程序为代表——一直是大型IT技术的主要驱动力，而个人计算——以桌面环境和应用程序、通信技术、娱乐和其他消费技术为代表——支持个人和人类的协作工作。我相信，到2020年，基于语言的信息处理将超过最初在结构化数据库中捕获的操作数据的处理。

语义网可能会实现，但不是通过人类学习像机器一样行动的过程，也不是通过计算机复制人类技能，而是通过设计整个系统，正如J.C.R. Licklider在1960年提出的那样，支持人机共生。