混沌中求序 -

2005年12月8日
第3卷，第8期

混沌中求序

本体论将如何帮助您构建半结构化数据？

NATALYA NOY，斯坦福大学

过去十年在线信息量呈“爆炸式”增长，人类和机器都需要处理这些信息，这几乎是毋庸置疑的。它促生了两个趋势（以及许多其他趋势）：首先，与之前存储大部分电子数据的传统集中式关系数据库相比，人们开始转向更灵活和流动的（半结构化）模型；其次，今天可用的信息实在太多，人类无法处理，我们真的需要机器的帮助。然而，在今天的网络上，大多数信息仍然是以某种方式供人类消费的。

这两个趋势都反映在语义网的愿景中，这是一种将由机器处理的网络内容形式，本体论是其支柱。蒂姆·伯纳斯-李、詹姆斯·亨德勒和奥拉·拉西拉在2001年《科学美国人》的一篇文章中描述了语义网的“宏伟愿景”：1 普通网络用户指示他们的个人代理相互交谈，以及与许多其他集成的在线代理交谈——例如，找到他们的保险涵盖的医生；安排他们的医生预约，以满足医生办公室和他们个人日历的限制；请求处方续药，确保没有有害的药物相互作用；等等。为了使这种情景成为可能，代理不仅需要共享术语——如预约、处方、一天中的时间和保险——还需要共享这些术语的含义。例如，他们需要理解时间约束都在同一时区（或在时区之间转换），了解一个医生的代理知识库中接受的计划与患者代理的健康保险含义相同（而不是汽车保险），并意识到它与另一个医生的术语“不接受”相关，其中包含排除计划的列表。

最初设计时并非协同工作的软件代理之间进行如此无缝的对话是语义网研究的圣杯。无论这个圣杯是否会被完全发现（或发明），正如任何“宏伟挑战”一样，这个愿景驱动着前沿研究，吸引了来自人工智能、数据库、信息集成、数据挖掘、自然语言处理、用户界面、社交网络和许多其他领域的研究人员。仅仅构建圣杯的各个部分和组件本身就是一项富有成效且值得的努力，它将在过程中产生许多有用的发现。

为了使软件代理之间能够进行这种无缝交互，代理必须共享它们操作的概念的语义或含义。这些语义在本体论中表达，本体论包含代理使用的术语的显式定义。这些定义以语言表示，其中每个构造都具有形式化的显式含义，可以被人类和机器明确地解释。虽然本体论有很多定义，2 但共同点是本体论是对某个领域的某种形式化描述，旨在在应用程序之间共享，并以可用于推理的语言表达。

由于本体论开发的根本目标是创建不同的应用程序可以共享的工件，因此重点是创建可以扩展到更具体的领域和应用程序的通用本体论。如果这些扩展引用相同的顶层本体论，则可以大大缓解集成问题。此外，本体论是为与推理引擎一起使用而开发的，推理引擎可以从本体论定义中推断出未明确放入的新事实。因此，本体论语言本身的语义是显式的，并以某种形式语言（如一阶逻辑）表达。

在过去的几年里，本体论已成为信息学和计算机科学研究中公认的基础。3 “本体论”一词现在出现在近 300 万个网页上；Swoogle 爬虫 (http://swoogle.umbc.edu) 索引了网络上超过 300,000 个本体论和知识库。就我们的目的而言，我们将本体论定义为表征应用领域的概念及其概念之间关系的枚举。本体论为讨论某些现实（话语领域）提供了一个明确的框架，并为描述感兴趣的领域提供了可检查、可编辑和可重用的结构。本体论已成为构建智能决策支持系统、模拟系统、数据集成系统、信息检索系统和自然语言系统的核心。W3C 开发了 RDF（资源描述框架）、RDF Schema，4 和 OWL（Web 本体论语言），5 用于表示语义网上的本体论的标准语言。

虽然通过本体论共享领域的形式化描述的想法是语义网的核心，但不要认为每个人都会只订阅一个或少数几个本体论。关于语义网的一个常见误解（以及许多人直接否定它的原因）是它依赖于每个人共享相同的本体论。相反，语义网提供了两个优势：首先，正式指定的本体论语言使这些语言中表达的语义明确且明确，因此更易于自动处理和集成；其次，是在 Web 上使用本体论的基础设施，扩展它们、重用它们、让它们交叉引用其他本体论中的概念，等等。例如，如果我要建立自己的在线商店，我可以重用计费、运输和库存的本体论，并为自己的商店扩展和定制它们。如果其他人重用了相同的库存本体论，我们可能会成为同一个门户网站的一部分，该门户网站搜索我们双方的库存。此外，我们将确切地知道术语“地址”的含义（无论是送货地址还是账单地址），以及库存数量是物品数量，而不是这些物品的箱数。

半结构化数据的主要挑战之一是从相当严格和集中控制的数据库模式转向更流畅、灵活和分散的模型。同样，在语义网中，也没有中央控制。正如任何人都可以在 Web 上发布自己的页面，任何人都可以指向它（并说它的好坏），在语义网中，任何人都可以发布本体论，任何人都可以重用和扩展任何适合其任务的本体论。当然，这种模型引发了查找正确的本体论、评估它们、信任它们的来源等等问题。我们将在本文后面讨论这些问题。

语义网解决和未解决的问题

本体论和语义网与其他形式的结构化和半结构化数据（从数据库模式到 XML）有何不同？或许主要区别之一在于它们的显式形式化。如果我们使更多假设显式化并能够被机器处理，那么自动或半自动地集成数据将会更容易。以下是另一种看待这个问题的方式：本体论语言具有形式化语义，这使得构建处理它们的软件代理更容易得多，因为它们的行为更可预测（假设它们遵循指定的显式语义——但至少有一些东西可以遵循）。6

这种对含义的显式机器可处理描述是 XML 和本体论语言（如 RDF 和 OWL）之间的关键区别：在 XML 中，某些语义是隐式的，编码在 XML 文档中组件的顺序和嵌套中；在本体论语言中，语义是显式的，具有底层的公理和形式化描述。要在 RDF 中表示句子顺序，您需要使用显式结构，例如 RDF 列表，来指定顺序，显式说明哪个先来，哪个接下来，哪个是最后一个，而不是简单地按照您想要的顺序放置在序列化文档中。相反，语句在 RDF 文档中出现的顺序是无关紧要的，因为底层结构是图，重要的是元素之间的链接。事实上，RDF 解析器完全可以读取 RDF 文档并将其写出，三元组在文档中以完全不同的顺序出现——表示的模型仍然完全相同。

那么，语义网今天带来了什么，以及它在不久的将来可能带来什么？语义网背后的关键假设之一是，通过在 Web 上提供大量本体论——领域模型的显式和机器可处理的描述——我们可以鼓励人们重用和扩展它们。

语义网基础设施鼓励和支持本体论的发布。希望这种基础设施将鼓励代理重用现有本体论，而不是创建新的本体论。当两个代理使用相同的本体论时，它们之间的语义互操作性大大提高：它们共享相同的词汇表，并理解该词汇表中类、属性和个体的含义，以及它们之间如何关联。语义网基础设施提供的标准格式的本体论的易于访问和可用性应促进和方便这种重用。

除了提供基础设施和社会压力来共享领域模型外，语义网标准的最新发展还提供了其他关键组件，以促进语义互操作性：支持语义协议的标准语言和技术手段。

W3C 关于 RDF、RDF Schema 和 OWL 的建议首次建立了一组基于 XML 的标准本体论语言。虽然形式化本体论已经存在，但它们都使用了不同的语言、底层知识模型和格式。拥有一组用于本体论交换和重用的标准语言也应促进和鼓励本体论的重用。

语义网语言（如 RDF 和 OWL）提供了促进互操作性的技术手段：在 RDF 和 OWL 中使用命名空间 URI（统一资源标识符），以及在 OWL 中导入，可以实现从一个本体论中的概念到另一个本体论中的概念的特定明确引用，从而实现跨 Web 的本体论及其组件的重用。例如，开发处理葡萄酒的应用程序的用户可以将特定的葡萄酒个体声明为在其他地方共享的本体论中定义的 Wine 类的实例。然后，任何在 Web 上搜索 Wine 类实例的人都将获得此用户的葡萄酒作为查询结果。此外，OWL 中的语言构造允许您显式地关联不同本体论中术语的含义。例如，如果我的本体论没有 Wine 的概念，而是有 Red Wine 和 White Wine 的概念，我可以明确声明我的本体论中这两个概念的并集等同于另一个广泛共享的本体论中的 Wine 类。

语义网、RDF 和 OWL 本身并不是实现无缝互操作性的答案。代理需要共享和重用以 RDF 和 OWL 发布的本体论，而不是选择自己的本体论，以正确和一致地重用它们，或者如果在选择重用不同的本体论时，在不同本体论中的术语之间创建对应关系。更具体地说，要使互操作性真正无缝，还需要克服几个障碍

本体论的错误或不一致的重用。 重用本体论很难，就像重用软件代码一样。语义网使人们很可能不正确或不一致地重用（部分）本体论。然而，只有当人们以与其最初预期用途一致的方式引用和重用公共本体论时，才能促进语义互操作性。例如，如果代理使用都柏林核心属性创建者 (http://purl.org/dc/elements/1.1/creator) 来表示文档创建者以外的任何内容，则与正确使用该属性的其他代理进行互操作将成为问题。

找到正确的本体论。 要重用本体论，需要找到一些可以重用的东西。用户必须能够搜索可用的本体论，以确定哪些本体论（如果有）适合他们的特定任务。此外，即使语义网内部是供机器处理的，也必须提供面向用户的工具，使用户能够浏览和编辑本体论，定制他们的任务，创建不同的视图和视角，提取适当的子集等等。Protégé 平台就是这样一种工具平台，将在下一节中介绍。

使用不同的本体论。 如果在同一领域中运行的两个代理选择使用不同的本体论，即使它们的本体论和数据都在 OWL 和 RDF 中，互操作性问题仍然存在。然后，代理需要手动或在工具的帮助下，在其各自的本体论中的术语之间创建映射。虽然 OWL 提供了一些构造来表达映射，但它并没有使用户摆脱查找和声明这些映射的必要性。因此，正如模式映射和集成在数据库世界中至关重要一样，映射问题在本体论世界中仍然非常活跃。

总之，为了实现代理之间的语义互操作性，必须解决几个关键问题：1. 用户必须能够搜索可用的本体论，以确定哪些本体论（如果有）适合他们的特定任务；2. 必须提供工具和技术，使用户能够根据用户的任务、视图和视角以及用户的适当子集来定制正在重用的本体论；3. 正如模式映射和集成在数据库世界中至关重要一样，本体论映射和集成仍然是一个严重的问题，因为会有本体论重叠并涵盖相似的领域，但仍然会为其带来独特的价值。

Protégé 的故事

本体论是语义网中的关键技术，本体论工具对于其成功至关重要。在斯坦福医学信息学 (Stanford Medical Informatics) 的 Protégé 小组 (http://protege.stanford.edu)，我们已经工作了二十多年，致力于支持知识工程师和领域专家有效开发和使用本体论的技术。Protégé 是一个开源本体论编辑器和知识获取系统，可以说是语义网中使用最广泛的本体论编辑器。它拥有大约 30,000 名注册用户、一个活跃的讨论论坛和一个年度国际用户会议。

更重要的是，Protégé 还是一个用于开发基于知识的应用程序的平台，包括用于语义网的应用程序。它提供了一个基于 Java 的 API，用于开发插件，并且世界各地蓬勃发展的开发者社区开发了各种插件，任务范围从可视化本体论和知识库的不同方式，到使用向导帮助进行本体论规范，到使用本体论数据调用不同的问题解决器、推理器和规则引擎，到执行本体论映射、比较本体论版本、导入和导出其他本体论等等 (http://protege.stanford.edu/download/plugins.html)。庞大的用户社区和 Protégé 系统的普及证明了在软件系统中使用本体论的想法正在迅速普及（Protégé 每周获得数百个新注册）。

Protégé 的主要目标之一始终是领域专家的可访问性。例如，有许多可视化插件 (http://protege.cim3.net/cgi-bin/wiki.pl?ProtegePlug-insLibraryByTopic) 将概念和关系表示为图表，或者允许用户通过绘制流程图来定义知识库中的新概念和关系，其中节点和边实际上是复杂对象 (http://protege.stanford.edu/doc/tutorial/graph_widget/)。

随着本体论变得越来越商品化，组织内部和单个组织外部的协作开发变得至关重要。Protégé 支持多用户本体论开发，允许多个用户访问本体论服务器以同时编辑同一个本体论。虽然 Protégé 确实支持本体论比较和版本控制 (http://protege.stanford.edu/plugins/prompt/prompt.html)，但现在经常有人要求像软件代码一样无缝地支持版本控制（版本控制在现代开发环境中得到支持）。

通过 Protégé 小组的经验，我们发现工业界对使用本体论来建模组织的 IT 结构及其业务流程越来越感兴趣。一方面，许多公司意识到，需要明确描述其系统中的大量各种组件，以了解它们彼此之间的关系以及一个组件中的更改或故障将如何影响其他组件。另一方面，对于许多公司来说，构成其主要知识产权价值的不是工具本身；相反，这种价值在于业务流程描述、公司对领域的理解以及他们执行领域分析和从该分析生成软件工具的方法。形式化本体论通过其在某种程度上脱离实际实现的系统独立描述，迫使知识承担者以抽象术语思考和编码他们的知识，这些抽象术语可能更容易被工具用来生成必要的软件。

例如，戴姆勒克莱斯勒自 2001 年以来一直是 Protégé 工业联盟计划的成员，它开发了广泛的应用，利用语义技术来支持改进的工程流程。他们的主要重点是知识表示和管理、语义门户、参数化设计、智能决策支持、配置和语义信息集成。戴姆勒克莱斯勒研究与技术公司构建了一个基于 Protégé 的框架，用于开发为工程领域定制的基于本体论的应用程序。该框架包括工具集和应用程序开发方法，已成功用于支持不同产品生命周期阶段（如产品设计、营销、销售和服务）的试点应用程序。

Protégé 的另一个工业合作伙伴是总部位于旧金山的 Exigen Group。Exigen 交互式地使用 Protégé 来建模关于业务领域的背景知识。业务模型和规则用于创建 BPM（业务流程管理）应用程序。信息提取技术用于从业务文档中开发本体论和规则的存储库。OWL 推理器验证本体论组件的提取知识，规则引擎验证规则组件。Protégé 用于交互式地更正和扩充知识，其中一部分可以作为丰富的背景知识反馈。知识库描述了 Exigen 文档档案之间的接口和迁移路径，从而提供了文档转换的语义。

前路漫漫

本文已经提到了语义网社区和任何其他尝试在 Web 规模上应用知识和数据密集型解决方案的社区所面临的许多挑战。以下是一些额外的挑战。

媒人，媒人，为我找个对象。 语义网愿景的关键取决于用户重用现有本体论的能力（以实现互操作等），这反过来又要求用户能够找到他们需要的本体论。今天存在不同类型的本体论存储库：有些是通过抓取 Web 生成的（例如，http://swoogle.umbc.edu），有些是经过管理的（例如，http://protege.stanford.edu），有些允许领域专家将他们的本体论添加到其中（例如，开放生物医学本体论；obo.sourceforge.net）。这些存储库在很大程度上只是存储和检索本体论的地方，但在最好的情况下，也只能实现简单的跨本体论搜索。它们不允许用户评估存储库中的本体论，智能地搜索它们，了解本体论是如何使用的，以及该领域的其他用户对特定本体论的各个方面的看法。

随着越来越多的本体论可用，找到要重用于特定应用程序或任务的本体论变得越来越困难，而不是更容易。即使在今天（这种情况只会变得更糟），从头开始开发新的本体论通常比重用别人的现有本体论更容易。首先，本体论和其他知识源在质量、覆盖范围、详细程度等方面差异很大。其次，一般来说，很少或根本没有客观且可计算的度量来确定本体论的质量。确定本体论是否适合特定用途是一项主观任务。我们通常可以就什么是糟糕的本体论达成一致，但大多数人会发现很难就通用的“良好”本体论达成一致：对一项任务来说良好的本体论可能不适合另一项任务。第三，虽然知道特定本体论是如何使用的以及哪些应用程序认为它合适会很有帮助，但今天几乎从不提供此信息。7

关键在于网络，笨蛋。 知识表示社区一直在处理一些小的、孤立的问题，知识库不必进行大量互操作。将知识表示转移到 Web 会产生许多独特的挑战。可扩展性是其中之一。一些 Protégé 用户已经拥有包含数万个类的本体论。8 这远远低于存储限制。虽然可以无缝地完成概念的有效检索和编辑，并且可以使用推理器对这种大小的本体论进行推理，但这可能正在逼近有效使用的极限。解决方案之一是本体论的有效模块化（参见下一点）。

Web 的另一个挑战是互操作性。无论最终“获胜”的技术组合是什么，有一件事是肯定的：这些技术将支持并显着促进不同模型和内容之间的互操作。这种支持不太可能通过极少数、明确定义的每个人都将使用的标准来体现，从而基本上消除互操作性的主要障碍。相反，它可能是一个鼓励这种重用和首先使用有限数量的不同模型的解决方案，但也将支持、促进和有效实施它们之间的映射和转换。

黑匣子。 OWL，用于语义网的 W3C 标准本体论语言，实际上是一种复杂的语言。即使使用图形用户界面，用 OWL 编写本体论也是一项具有挑战性的任务。我们需要开发仅具有有限功能的专用编辑器，这些编辑器易于人们使用和掌握，并具有许多用于开发的向导和工具。假设许多非计算机科学家在没有特殊培训的情况下能够用 OWL 开发成熟的本体论，包括逻辑表达式、通用和存在限制等等，这可能是不现实的。

但是，如果语义网愿景要取得成功，他们就不必这样做。有人可能会说，语义网上的大多数本体论将是具有简单属性的简单层次结构，而不是使用不同类型的限制、不相交性以及具有并集和交集的复杂逻辑表达式的本体论。两者都有其用武之地，并且少量经过良好开发和验证的本体论将是必要的。同时，人们应该能够将它们作为“黑匣子”重用，而无需过多了解它们。如果我重用一个完善的时间本体论，例如 OWL-Time (http://www.isi.edu/~pan/OWL-Time.html)，我应该知道的是，如果我说你在付款之前订购食物，使用 OWL-Time 本体论中的“之前”的概念，我的系统将能够计算出事件之间的时间关系。

信任我。 信任——尤其是它的某种可计算的度量标准——在任何任何人都可以发布机器可处理数据的环境中都极其重要。信任（或不信任）问题已经困扰着 Web。在 Web 上，信息主要由人消费，他们通常可以使用他们的背景知识和直觉来评估来源的可信度。我们庞大的背景知识和经验（很难编码）在确定什么是好什么是坏方面提供了很大帮助，但仍然需要机制来帮助我们做出这些决定，因为我们不是每个领域的专家。

另一方面，数据库在很大程度上是为机器处理而设计的，但它们在很大程度上是集中控制的，模式通常由信誉良好的公司发布（如果发布的话）。数据库不是普通博主在 Web 上发布的东西。在语义网和其他基本上由任何人发布以供机器处理的数据的自由流动领域中，这些机器需要能够确定来源的可信度。信誉系统、证书和安全措施都需要适应这个领域。

“恰到好处”和不精确的答案。 从历史上看，人工智能中的推理和数据库中的查询都是关于对特定问题给出精确答案，但也有少数例外。对于一个中心控制较少、松散耦合的资源集合（这些资源上线和消失、凭据可疑、并且在其表示中使用不同的表示和精度级别），我们必须开发足够灵活的查询和推理技术来处理这种流动集合。这些方法不应要求规范或答案的精确性。

此外，在人工智能中的推理和数据库中的查询回答中，有一种范例是相对于存储在可访问资源中的数据，获得对您问题的完整答案。在 Web 上，我们习惯于获得“足够好”或“尽可能好”的答案，考虑到时间和可用资源的限制，但不一定是最好的答案。如果我找到了一个在这个时间段内看起来是最低的合理机票价格，我很高兴停止搜索，即使我知道在 Web 上的某个地方可以买到便宜 10 美元的机票。同样，在语义网中，我们可以使用当前可用的资源快速有效地找到的结果通常就足够好了，不必是完美的。

这些挑战都不是不可克服的，解决这些挑战将在过程中产生许多有趣的进展。将此视为人工智能历史的概括：研究尚未产生，并且可能永远不会产生像人类一样智能的机器。但是想想我们在追求这个目标的过程中取得了多少科学和技术进步！同样，无论我们是否实现所有机器在没有人类太多或任何干预的情况下相互对话和理解的圣杯，我们都将在过程中生产出许多有用的工具。

参考文献

Berners-Lee, T., Hendler, J., and Lassila, O. 2001. 语义网。《科学美国人》 284(5): 34–43。
Welty, C. 2003. 本体论研究。《人工智能杂志》 24(3)。
McGuinness, D. L. 2001. 本体论走向成熟。载于《语义网：为什么、是什么和如何》，D. Fensel, J. Hendler, H. Lieberman, and W. Wahlster 编辑。剑桥：麻省理工学院出版社。
Brickley, D., and Guha, R. V. 1999. 资源描述框架 (RDF) 模式规范。世界万维网联盟提出的建议。
Dean, M., Connolly, D., van Harmelen, F., Hendler, J., Horrocks, I., McGuinness, D. L., Patel-Schneider, P. F., and Stein L. A. 2002. Web 本体论语言 (OWL) 参考版本 1.0; http://www.w3.org/tr/owl-guide/。
本体论和数据库的详细比较可以在 Uschold, M., and Grüninger, M. 2004. 本体论和语义实现无缝连接。《SIGMOD 记录》 33(3) 中找到。
Noy, N., Guha, R. V., and Musen, M. A. 2005. 本体论的用户评级：谁来评级评级者？载于 AAAI 2005 年春季研讨会，志愿者贡献者的知识收集。加利福尼亚州斯坦福市。
Golbeck, J., Fragoso, G., Hartel, F., Hendler, J., Parsia, B., and Oberthaler, J. 2003. 国家癌症研究所的词库和本体论。《Web 语义学杂志》 1(1)。

致谢

作者谨此感谢 DaimlerChrysler 公司的 Tania Tudorache 和 Exigen Group 公司的 Oleg Bondarenko，感谢他们提供关于 Protégé 和本体在其公司中应用的信息。Protégé 是国家资源，由美国国家医学图书馆的 LM007885 号拨款支持。

NATALYA NOY 是斯坦福大学斯坦福医学信息学的高级研究科学家。她从事本体开发研究已超过 10 年，并且几乎从语义网概念出现以来就活跃在该领域。她获得了东北大学计算机科学博士学位。

最初发表于 Queue 杂志，第 3 卷，第 8 期—
在数字图书馆中评论本文

更多相关文章

Andrew McCallum - 信息提取
2001 年，美国劳工部受命建立一个网站，以帮助人们在全国各地的社区学院、大学和组织中寻找继续教育机会。该部门希望其网站支持对地点、日期、时间、先决条件、讲师、主题领域和课程描述进行字段布尔搜索。最终，它也有兴趣挖掘其新数据库以获取模式和教育趋势。这是一个主要的数据集成项目，旨在每三个月从数万个独立机构自动收集详细的结构化信息。

Alon Halevy - 为何你的数据无法融合
当独立的各方为同一领域开发数据库模式时，它们几乎总是彼此大相径庭。这些差异被称为语义异构性，它也出现在多个 XML 文档、Web 服务和本体中——或者更广泛地说，只要存在不止一种结构化数据主体的方式时就会出现。半结构化数据的存在加剧了语义异构性，因为半结构化模式从一开始就更加灵活。为了使多个数据系统相互协作，它们必须理解彼此的模式。

C. M. Sperberg-McQueen - XML <和半结构化数据>
词汇表设计者可以要求 XML 数据完全规则，或者他们可以允许少量变化，或者大量变化。在极端情况下，XML 词汇表实际上可以表示除了所有格式良好的 XML 所要求的规则之外，根本没有其他规则。由于 XML 语法仅记录存在的内容，而不是可能存在的所有内容，因此稀疏数据不会使 XML 表示显得笨拙；XML 存储系统通常构建为优雅地处理稀疏数据。

Adam Bosworth - 从网络学习
在过去的十年中，我们看到了计算领域的一场革命，无论是在范围和影响方面，还是在我们思考构成“好”与“坏”计算的方式方面，都超越了迄今为止所见的任何事物。