过去十年见证了信息检索的蓬勃发展,它从信息和图书馆科学领域的一门精品学科,变成了全球数十亿人的日常体验。这场革命在很大程度上是由互联网驱动的,供应商专注于Web资源的搜索和导航以及Web内容管理。与此同时,企业也在投资将其所有信息联网在一起——以至于员工越来越有可能拥有一个访问企业信息的单一窗口。尽管这些员工在企业中寻求类似Web的体验,但互联网和企业领域在内容的性质、用户行为和经济动机方面存在根本差异。
我们在此的主要重点是概述企业中信息检索的需求以及企业内容基础设施中使用的各种技术。我们将企业定义为涉及专有信息的任何协作努力,无论是商业、学术、政府还是非营利组织。“搜索”一词通常用于表示关键词搜索。在本文中,我们使用更广泛的定义,包括高级搜索功能、导航和信息发现。
企业中绝大多数信息是非结构化的——也就是说,它不驻留在关系数据库中,而关系数据库以表格形式记录整个企业中发生的数据和事务。这种非结构化信息以HTML页面、专有格式的文档和表单(例如,纸质和媒体对象)的形式存在。连同关系数据库和专有数据库中的信息,这些文档构成了企业信息生态系统。
可以说,企业中最有价值的是结构化信息;因此,企业寻求通过向非结构化信息添加结构来提高其价值。创建、聚合、捕获、管理、检索和交付这些信息是企业内容基础设施的核心要素。企业信息交付必须清楚地满足用户在互联网上已经期望的性能。虽然在Web上开发的某些扩展和性能技术可以适用于企业,但许多在Web上搜索、组织和挖掘信息的技术不太适用于企业。
企业搜索在许多方面与互联网搜索不同。1,2,3 首先,对于查询来说,“好的”答案的概念是截然不同的。在互联网上,它被模糊地定义。由于通常有大量文档与查询相关,因此用户通常在寻找“最佳”或最相关的文档。在企业内网中,“好的”答案的概念通常被定义为“正确”的答案。用户可能知道或之前见过他们正在寻找的特定文档。很大一部分查询倾向于只有一小组正确答案(通常是唯一的,例如“我忘记了我的Unix密码”),并且答案可能没有特殊的特征。正确的答案不一定是“最受欢迎”的文档,而“最受欢迎”的文档在很大程度上决定了互联网上的“最佳”答案。找到正确的答案通常比找到最佳答案更困难。
其次,互联网和企业内网内容创作背后的社会力量截然不同。1 互联网反映了许多作者的集体声音,他们可以自由发布内容,而企业内网通常反映了其服务的实体的观点。企业内网内容的创建是为了传播信息,而不是吸引和保持任何特定用户群体的注意力。内容创作没有激励机制,并非所有用户都可能拥有发布内容的权限。
来自异构存储库(例如,电子邮件系统和内容管理系统)的内容通常不会通过超链接相互交叉引用。因此,企业内网上的链接结构与互联网上的链接结构非常不同。例如,在互联网上,强连通分量(可以通过跟踪链接相互到达的页面)约占已抓取页面的30%。在公司企业内网上,这个数字要小得多(例如,IBM企业内网上为10%)。因此,流行的PageRank4和HITS5算法在企业内网上不如在互联网上有效。6 必须采用其他技术来提高企业内网上的搜索相关性。
企业内容和流程具有不同的特征,这使得企业内部的信息检索与Web搜索大相径庭。这本身就导致企业搜索与互联网搜索的发展方向不同。(请参阅侧边栏“企业特征”。)不同的需求导致互联网(图1)和企业内网(图2)上的体验截然不同。
这些领域的部署环境也不同:互联网搜索引擎,包括硬件和软件,完全由一个组织作为服务控制和管理。企业搜索软件被许可给各种组织并在不同的环境中部署。这带来了不同的要求:硬件限制、软件平台、带宽、防火墙、异构内容存储库、安全模型、文档格式、用户社区、界面和地理分布。企业搜索软件的需求——高灵活性/可配置性和易用性与易于部署——通常是相互矛盾的。
虽然搜索服务可以在快速周期内整合新技术,但企业部署通常并非如此。企业中的经济和时间限制有时会阻止快速升级周期。通常,企业使用旧版本的软件,尽管他们完全意识到他们没有使用他们可以使用的某些技术。当搜索软件嵌入到具有延长发布周期的第三方企业应用程序中时,这种情况更为明显。这有时会导致最终用户对企业内部提供的搜索质量感到不满意。然而,搜索服务无法有效地捆绑到企业产品中,因为企业需要灵活性、安全性和自定义应用程序访问。
特定技术可以改进企业搜索。图3描绘了企业搜索系统的关键要素。
爬取和索引。 数据必须在可以搜索之前被积累(爬取)和索引。这需要了解关键信息的存在位置,以及访问这些存储库的权限,这些存储库可能是安全的。许多当前的爬虫程序在预定义的计划上运行,这些计划与信息变化的速度不匹配。需要自适应刷新索引,这涉及到更复杂的更改检测机制。大多数爬虫程序使用拉取模型,这对网络资源和目标存储库来说都是苛刻的。未来的爬虫程序将更多地利用触发器和定向抓取。这里面临的一个问题是,大多数应用程序不公开有关已更改内容的信息;例如,它们不是为利用外部搜索技术而设计的,因为它们通常将搜索构建到应用程序中。应用程序供应商采用搜索标准可以帮助解决这个问题。
多种语言的文档可以驻留在同一个索引中,并且可以使用自动语言检测技术来进行基于语言的内容路由和分区。索引已经考虑到有关超链接、锚文本等的信息。元数据将在索引编制期间自动提取,以提高检索质量。应用程序和内容管理供应商最好标记已修改的内容,以消除不必要的重新索引。
数据过滤。 质量的关键之一是剔除过时、不相关或重复的信息。干净的数据意味着更好的搜索相关性。此外,当预处理器清理呈现给它们的数据时,自动分类、特征提取和聚类技术将更加准确。诸如链接密度分析之类的技术可以用于检测Web页面上内容和富链接菜单之间的差异。实体提取技术可以用于在索引编制之前添加相关信息。剥离广告、菜单等可以提高后续排名算法的质量,这些算法在内容上运行。这对于正在索引外部内容的企业来说非常重要。
搜索相关性。 某些互联网搜索策略,例如超链接分析,不能直接应用于企业。某些策略实际上在互联网上被滥用;例如,互联网搜索引擎不断调整以抵消垃圾邮件和篡改Web页面以利用搜索算法的影响。必须利用企业内容的其他特征来实现更高的搜索相关性。例如,由于企业内网基本上没有垃圾邮件(因为缺乏垃圾邮件的动机),因此锚文本和标题词是用于对文档进行排名的可靠信息来源。Fagin等人提出的排名聚合方法提供了一种有效的方法,可以将来自不同信息来源的排名组合起来。1
许多企业内网查询(60%到80%)的目标是检索“我看过的东西”。用户可能记得目标结果的一些属性,例如日期或作者。搜索引擎必须提供一种在查询中指定属性的方法。按属性排序也有助于快速定位信息。
用户角色和上下文可以提高搜索的相关性。领先供应商的企业搜索软件中已经提供了基于会话的个性化技术。虽然公共网站收集用户信息可能会引发隐私问题,但企业用户如果他们的访问——例如,企业内网上的点击流——被跟踪,则顾虑要少得多,因为这很可能与业务相关。在某些企业中——例如,在金融行业——即使是IM(即时消息)也出于监管原因而成为合理的目标。
通过提供更好的标题(如果不存在标题,则使用技术自动创建标题)、动态摘要、类别信息等,可以显著改变结果的感知相关性。可用性与相关性紧密相关。
结构化信息与非结构化信息。 在产品目录中,每个项目都有非结构化文本以及结构化属性。例如,汽车通常具有描述和属性,例如年份、型号和价格。一个典型的查询是任意文本查询(“皮革装饰”AND“全轮驱动”)和结构化字段上的参数查询(制造商=丰田 AND 价格 < 30,000 美元 AND 年份 > 2000)的结合。文本查询属于经典信息检索系统的范畴,而参数查询传统上使用关系数据库系统处理。现代搜索工具为电子商务和市场等应用执行这两种功能,在这些应用中,可扩展性和成本效益至关重要。
使用RDBMS(关系数据库管理系统)来解决这个问题会导致查询响应速度慢得无法接受。RDBMS中的文本搜索扩展不支持强大的自由文本查询功能——例如,模糊搜索——并且对于搜索而言不具有成本效益。7 除了能够沿属性值排序之外,能够根据查询对结果进行排名至关重要。这使得能够有效地引导结果导航,允许用户逐步细化(或放宽)查询。
参数细化8 通过使用辅助参数索引来增强全文索引,从而为这个问题提供了解决方案,该索引允许快速搜索、导航和对查询结果进行排名。这项强大技术的主要问题是数据准备非常重要,组织需要投入时间来增强和规范化数据。分类和实体提取技术将用于使用属性增强信息,以改进搜索和导航。
数据的另一个关键特征是数据本身的结构。随着XML的日益普及,搜索和检索文档特定部分(例如,XML中的特定元素)的能力是强制性的。将支持像XQuery这样的查询语义,但增加了处理数据库无法优雅处理的非结构化文本和模糊结构(例如,拼写错误)的能力。动态构建虚拟文档的能力(虚拟文档可以由许多文档的相关部分组成)将至关重要。最终用户未来想要的不仅仅是匹配的文档,而是代表答案的东西。
分类、聚类和分类导航。 只有当用户知道要搜索什么时,搜索才能提供一种从海量数据中查找相关信息的有效方法。对于大型语料库,查询可能会产生大量结果集。重要的是帮助用户在相对较小、可管理的空间中通过浏览和导航信息来形成有效的查询。分类法就是这种空间的例子。它们将文档组织成可导航的结构,以帮助用户查找相关信息。在类别内搜索通常会产生比非范围搜索更高的相关性结果。研究表明,以类别呈现结果可以提供更好的可用性。9
大多数分类法是由人构建和维护的,因为需要领域专业知识。著名的例子包括Yahoo!和开放目录项目的目录结构。然而,手动分类法构建既耗时又昂贵。此外,在许多企业中,信息爆炸已经达到信息架构师通常无法充分掌握语料库中表示的所有主题和主题的程度。他们需要自动系统,首先挖掘语料库,提取关键概念,将概念组织成概念层次结构,10 并将文档分配给它。可视化工具在这里很有帮助,可以呈现找到的概念及其关系(父子关系、兄弟关系等)的主题地图。另一个理想的功能是用简洁的、人类可读的标签标记这些概念。最后,这个想法可以扩展到建议一个分类法,允许用户浏览语料库。
该领域的最新技术尚不成熟,不能依赖于提取像专业图书馆科学家制作的那样的分类法。然而,合理地期望系统生成一个草案分类法,供领域专家进行细化,通过自动挖掘数据中的模式和发现关联,使领域专家的工作效率显著提高。
用于将文档分配到类别的分类规则可以由知识工作者手动构建,也可以从预先分类的训练数据中自动学习。一旦定义了这些分类规则,就可以自动将文档从多个分类法分配到类别。11 然而,假设根据分类法创建者组织的脱节节点,单个分类法的导航充其量是有限的。考虑主题“圣何塞的寿司餐厅”。我们是否会从区域标题开始导航到分类树中的这个节点,到美国,然后到圣何塞,我们在圣何塞下寻找餐厅?或者我们是否会首先选择旅游和休闲,然后是餐饮,日本料理,最后期望找到按地区分类的餐馆?理想情况下,不应强迫用户在树的顶层做出选择。当分类元数据存在于多个轴上时(例如,区域圣何塞以及功能性寿司),关系分类法可以解决这个问题。系统必须能够将这种组合的分类信息呈现为导航体验,用户不必被迫做出与分类法创建者一致的选择,而是可以按照他们想要的方式导航。
虽然企业内网搜索通常不会像互联网搜索那样返回数百万个文档,但结果集可能包含大量文档。筛选长长的列表非常乏味。在这种情况下,需要动态结果列表聚类来帮助用户导航结果。实时结果列表聚类通过从搜索结果动态生成的查询相关主题来组织搜索结果。
信息提取和文本挖掘。 半结构化文档中的元数据为内容搜索和组织带来了巨大的价值。元标记可以与文档(主题、作者)相关,也可以应用于内联内容(公司、邮政编码、基因)。一旦文档被标记,就可以进行参数搜索或OLAP(在线分析处理)样式的多维数据集分析,以便揭示较大语料库中的有趣细节。可以聘请主题专家来手动标记或注释文档。然而,手动标记无法扩展到大量信息;因此,自动化是强制性的。
信息提取和文本挖掘是降低标记成本的有用工具。文本挖掘使用语言学、语义、句法、统计和结构分析来分类文档或提取持久实体、事实、事件及其关系。语言分析包括解析、标记化和词性标记。语义分析可以根据上下文消除多义词的歧义。句法方法将实体定义为可以表示为正则表达式或上下文无关语法的模式。统计分析可以用于发现人类专家不易表达的隐藏模式,以及发现实体之间的相关性。结构分析可以利用邻近性和布局信息来链接实体。
信息提取和文本挖掘的有效性取决于文档质量和目标信息实体的同质性。在几乎每个自动标记的应用中,都将采用特定于领域的启发式方法来提高有效性。
图4显示了应用信息提取技术从在线广告中获取餐厅名称、地址、电话号码、评论和接受的信用卡示例。这种自动提取可以通过使用特定指令(例如,菜肴、付款方式和电话区号)搜索和导航餐厅,以及通过提供其他信息(例如,地图或行车路线)来显著改进黄页应用程序。
联邦搜索。 信息跨越组织边界。并非完成任务所需的所有信息都可以作为索引内容获得。即使组织可以访问相关内容(例如,在Web上),在某些情况下也无法索引(例如,安全性),或者由于法律限制而被禁止索引。此外,在大型组织中,不同的部门通常通过不同的软件系统或应用程序索引信息孤岛。3
在这种情况下,联邦搜索是提供对来自企业存储库和应用程序以及外部订阅源和实时馈送的数据的单点访问的唯一方法。复杂的系统通过对来自可能不受企业管辖的不同来源的结果进行排名、过滤、重复检测、动态分类和实时聚类来增加更多价值。12 数据库供应商提供跨不同关系数据库的联邦,但非结构化数据的联邦搜索提供了不同的挑战(例如,跨独立系统进行排名)和机遇(例如,分类和聚类)。
来源可能包括个人工作站,如在对等网络中,需要异步和增量行为以及调度支持。例如,用户可以安排夜间搜索,以便在他们早上到达之前提供混合、过滤和分类的结果集。
社交网络和基于使用的相关性。 组织智力资本的绝大部分以隐性知识的形式存在。社交网络将人为因素纳入信息生态系统。可以分析信息使用模式,以发现组织中人员与其创建、修改、访问、搜索和组织的文档之间的显性和潜在关系。诸如Google之类的Web搜索引擎使用Web页面之间的超链接结构,这反映了Web资产对社区的相关性。这是一种静态方法。分析人员之间的通信模式以及企业中信息的动态使用情况的系统将根据内容和上下文的组合,为个人和群体提供更丰富的个性化体验。
图5描绘了一个社交网络,包括不同类型的多个实体(例如,文档、查询、类别和用户)。可以使用一致的模型(例如,一组关键字或特征向量)来表示这些不同的实体。这使得能够检测不同类型实体之间有用的相关性。输入上下文可以是多个实体的组合——例如,用户的个人资料、输入查询和用户当前正在浏览的文档。此外,这些表示可以根据用户交互而更改,从而随着时间的推移提高相关性。虽然互联网上的许多活动是不可靠的(例如,垃圾邮件),但您可以更加确信企业内部发生的交互,从而允许系统利用这种至关重要的输入。
传统上,文档的评分和排名是基于每个文档中与查询匹配的内容。可以利用社交网络通过用户的历史行为来增强内容分析,从而改变结果排名。这种自适应排名可以很简单(如果之前的用户在发出相同的搜索后选择查看/评价文档,则提高文档的排名),也可以更复杂(如果从类似查询的第二个结果页面中选择,则提高排名)。结合动态反馈还可以将新术语注入到文档表示中,从而允许为内容中甚至不存在的查询词(基于概念的检索)返回相关信息。
用户个人资料可以增强输入上下文,以提供个性化和定向搜索。持久个人资料可以利用用户的角色以及历史访问模式。基于会话的个人资料提供实时个性化,从而提高与当前任务的相关性。此类系统可以利用用户的查询、点击流、公司目录中的条目等等。
物理资产(例如,文档、用户)和虚拟资产(例如,类别、组)都可以包含在社交网络中,从而促进与用户上下文相关的信息发现。这样的系统使用户能够参与分类法构建过程,从而实现个人和社区分类法。输入的附近区域可以包括组织内的专家。社交网络研究表明,门户用户形成紧密联系的社区的重叠小团体。这推动了发现与用户当前信息上下文最相关的其他用户社区的需求。
分析。 软件提供的报告和分析模块可以提供搜索相关性和有效性的具体指标,并且是改进用户体验的强大工具。这些指标可以帮助验证搜索实施方面的改进——例如,向结果列表添加基于动态查询的摘要、启用用户反馈以及创建同义词列表和预定义查询以避免可怕的“未找到结果”。如果没有报告工具和分析,就很难衡量相关性和用户满意度。分析正在导航哪些类别以及哪些文档受欢迎,对于组织评估其信息需求和发展可能很有用。
开发更好的企业搜索平台存在若干机会,但在利用这些机会时必须面对某些挑战。
基于内容的搜索相关性算法将得到改进。然而,利用用户交互来进一步调整系统性能——例如,用户评价文档或提供和更新其个人资料——意味着用户行为的改变。激励员工参与可能会导致不同的社区行为。已经有公司成立以提取社交网络的好处,例如联系人列表管理。组织中的文化变革将促进此类技术的有效性。
高质量的自动化系统将成为未来的常态。任何依赖于显式人工干预(例如,人工标记、注释)而不求助于自动化的系统注定会在长期内失败。随着企业内容的增加,人工干预将无法扩展。自动化意味着只有一小部分内容会被吸走用于人工监督,这基于严格的阈值。随着算法变得更加准确,自动化系统可能比多个人类的集体输出更可靠和一致。
随着越来越多的组织认识到干净、组织有序的内容的必要性至关重要,内容发布流程将变得更加严格。将采用其他工具来捕获当前丢失的信息。此外,这些工具将使用更新的技术,例如XML,从而提高一致性和自动化处理。虽然数据质量可能会随着时间的推移而提高,但我们仍然需要处理嘈杂的遗留数据。
对企业数据的研究表明,文档中的重要元数据(例如,作者)通常是不正确的,因为它被设置为某些默认值(例如,组织名称或模板创建者)。通过技术辅助或通过策略强制执行正确的元数据,将在很大程度上提高数据质量。删除冗余/过时数据(高达20%到30%)将有益于相关性。诸如重复检测和近似重复检测之类的技术可以确保从活动语料库中消除不相关的数据。
互联网搜索引擎已经变得普及,并清楚地展示了触手可及的信息的力量。企业搜索虽然具有相似的期望,但面临着一系列不同的挑战。除了必须处理多个异构存储库和无数的数据格式外,企业还必须处理安全性、合规性和部署问题。其中许多挑战可以通过技术非常有效地解决。
虽然搜索相关性是一个重要的衡量标准,但还有其他关键特征可以使搜索有效,例如导航、分类、实体提取、推荐、摘要、查询语言和语义。结合用户行为的系统将成为常态,从而产生更高的相关性、更好的个性化以及更高的人力资产和隐性信息利用率。企业系统通常无法编译互联网搜索引擎用于剔除噪声数据的大规模统计数据,并且将采用其他技术来满足企业的特殊需求。
1. Fagin, R., Kumar, R., McCurley, K., Novak, J., Sivakumar, D., Tomlin, J. A., and Williamson, D. P. Searching the workspace Web. Proceedings of the 12th International World Wide Web Conference, Budapest, Hungary (May 2003) 366-375.
2. Raghavan, P. Structured and unstructured search in enterprises. Data Engineering 24, 4 (Dec. 2001) 15-18.
3. Hawking, D. Challenges in enterprise search. Proceedings of the Australasian Database Conference, Dunedin, New Zealand (Jan. 2004) 15-24.
4. Brin, S., and Page, L. The anatomy of a large-scale hypertextual Web search engine. Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia (1998) 107-117.
5. Kleinberg, J. M. Authoritative sources in a hyperlinked environment. Journal of the 46, 5 (1999) 604-632.
6. 这些算法经常在互联网上通过垃圾邮件和页面操纵而被利用,从而降低了它们的有效性。
7. 当将搜索组件从数据库引擎卸载到企业搜索软件时,许多应用程序会立即获得ROI(投资回报率)。
8. Abrol, M., Latarche, N., Mahadevan, U., Mao, J., Mukherjee, R., Raghavan, P., Tourn, M., Wang, J., and Zhang, G. Navigating large-scale semi-structured data in business portals. Proceedings of the 27th VLDB Conference, Rome, Italy (2001) 663-666.
9. Dumais, S. T., Cutrell, E., and Chen, H. Optimizing search by showing results in context. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Seattle, Washington (March 2001) 277-284.
10. Chung, C., Lieu, R., Liu, J., Luk, A., Mao, J., Raghavan, P. Thematic mapping—from unstructured documents to taxonomies. Proceedings of the Conference on Information and Knowledge Management, McLean, Virginia (2002) 608-610.
11. Dumais, S. T., Platt, J., Heckerman, D., and Sahami, M. Inductive learning algorithms and representations for text categorization. Proceedings of the Conference on Information and Knowledge Management, Bethesda, Maryland (1998) 148-155.
12. Choo, K., Mukherjee, R., Smair, R., and Zhang, W. The Verity federated infrastructure. Proceedings of the Conference on Information and Knowledge Management, McLean, Virginia (2002) 621.
RAJAT MUKHERJEE 是位于加利福尼亚州森尼维尔市 Verity 公司的首席软件架构师,从事社交网络领域的工作。他在印度马德拉斯印度理工学院获得电气工程学士学位后,在美国德克萨斯州休斯顿市莱斯大学获得并行计算硕士和博士学位。之后他加入了 IBM 的托马斯·J·沃森研究中心。他在那里从事集群计算、可扩展性和高可用性和可扩展 Web 服务器方面的工作,并帮助设计了在 1996 年亚特兰大奥运会和深蓝与卡斯帕罗夫国际象棋比赛期间使用的基础设施。1997 年他转到 IBM 的阿尔马登研究中心,在那里他从事分布式数字图书馆和内容管理方面的工作。在加入 Verity 之前,他曾在硅谷内容发现初创公司 Purpleyogi 工作了一年。
JIANCHANG MAO 是 Verity 新兴技术组的首席软件架构师和经理。在加入 Verity 之前,他在 IBM 的阿尔马登研究中心工作了六年多。他于 1994 年在密歇根州立大学获得计算机科学博士学位。作为 IEEE 的高级会员,Mao 曾担任 IEEE Transactions on Neural Networks 的副编辑以及 Pattern Analysis and Applications 的编辑委员会成员。他在 1996 年至 2000 年间获得了 IBM 的杰出技术成就奖和三个研究部门奖。
© 2004 1542-7730/04/0200
内容来源和格式的多样性企业必须从异构内容来源(例如,Microsoft Exchange、Lotus Notes、Documentum)以及文件系统和企业内网中提取和摄取结构化和非结构化信息。此外,文档以无数种文件格式和多种语言存在;单个文档可能包含多种语言,或带有多种 MIME 类型的附件。目前,按体积计算,HTML 企业内容不到 10%。
个人在企业中的角色决定了可以访问哪些文档。成熟的企业需要更严格的安全概念,其中搜索结果列表经过筛选,仅显示用户可以访问的文档。结合存储库的本机安全性来做到这一点尤其具有挑战性。
被认为是非结构化的信息实际上是半结构化的,具有作者、标题、日期、大小等元数据。相反,RDBMS(关系数据库管理系统)中的许多结构化信息是非结构化的——例如,文本 blob 和 VARCHAR 字段。XML 在内容和应用程序中无处不在。至关重要的是提供高性能参数搜索,允许用户通过灵活地组合结构化和非结构化数据来导航信息。
灵活的评分和排名机制。没有单一的评分和排名函数适用于所有企业搜索环境。许多为Web优化的强大的基于链接的评分和排名算法不太可能适用于企业环境。企业内容从根本上不同于Web内容,企业用户的目标和期望不同于Web用户,并且企业搜索施加了Web所缺乏的复杂性。
联合搜索实现了对多个来源(内部索引、Web搜索和订阅源——例如,实时新闻源)的单点访问。这里的关键挑战是将来自所有来源的结果集合并,以实现统一呈现。即使这些集合通常没有共同的文档并且采用不同的评分和排名方案,也必须这样做。
内容生成过程。虽然互联网倾向于民主化增长,但内网通常由官僚机构管理。内网上的内容创建通常集中在少数人手中。虽然内网上发布的内容可能需要遵守特定的政策(审查、批准),但一致性无法保证,因为可能存在多个组织单位,它们的政策有所不同。
人员/角色/行为。众所周知,企业中最有价值的知识存在于员工的头脑中。企业必须将数字信息与员工的知识和经验相结合。企业和互联网之间的一个重要区别是,虽然互联网用户在很大程度上是匿名的,但企业用户是可回应的,并受特定的可控流程指导。企业中的隐私问题也非常不同,因为人们通常从事特定于企业的行为,并因其参与而获得报酬。
最初发表于 Queue vol. 2, no. 2—
在数字图书馆中评论本文
Latanya Sweeney - 在线广告投放中的歧视
在搜索听起来像黑人名字的名字时,暗示逮捕记录的在线广告是否比听起来像白人名字的名字更频繁地出现? 到底什么是听起来像黑人的名字或听起来像白人的名字? 广告必须再出现多少次才能对一个种族群体产生不利影响,才会被认为是歧视? 在线活动是否如此普遍,以至于计算机科学家不得不考虑技术设计中的结构性种族主义等社会后果? 如果是这样,这项技术该如何构建? 让我们深入研究在线广告投放,以找到答案。
Ryan Barrows, Jim Traverso - 搜索被认为是不可或缺的
大多数公司必须利用其数据来获得竞争优势。在过去的几年中,知识工作者可用的数据量已显着增长,虽然其中很大一部分存在于大型数据库中,但重要的子集仅以非结构化或半结构化数据的形式存在。如果没有正确的系统,这将导致信噪比持续恶化,为试图快速查找信息的繁忙用户制造障碍。三种企业搜索解决方案有助于改善知识发现。
Ramana Rao - 从信息检索到搜索及更远
自从范内瓦尔·布什的开创性文章《诚如所思》描绘了学者在机器辅助下的形象以来,已经过去了近 60 年,“这是一种设备,个人可以在其中存储他所有的书籍、记录和通信,并且它是机械化的,因此可以极其快速和灵活地进行查阅。”
Mike Cafarella, Doug Cutting - 构建 Nutch:开源搜索
搜索引擎对于互联网的使用至关重要,就像网络基础设施的任何其他部分一样,但它们与其他组件的不同之处在于两个重要方面。 首先,它们的内部运作是秘密的,不像 DNS(域名系统)的运作方式。 其次,它们掌握着政治和文化权力,因为用户越来越依赖它们来浏览在线内容。