下载本文的PDF版本 PDF

行业级知识图谱:经验与挑战

五家不同的科技公司展示了他们是如何做到的

Natasha Noy,谷歌; Yuqing Gao,微软; Anshu Jain,IBM Watson; Anant Narayanan,Facebook; Alan Patterson,eBay; Jamie Taylor,谷歌

知识图谱对于当今许多企业至关重要:它们提供结构化数据和事实知识,这些数据和知识驱动着许多产品,并使它们更智能、更“神奇”。

一般来说,知识图谱描述了感兴趣的对象以及它们之间的联系。例如,一个知识图谱可能包含电影、电影中的演员、导演等等的节点。每个节点可能都有属性,例如演员的名字和年龄。可能存在多个电影的节点,这些电影都涉及特定的演员。然后,用户可以遍历知识图谱,收集有关演员出演的所有电影的信息,或者在适用的情况下,他/她执导的电影的信息。

许多实际的实现通过定义模式本体来对知识图谱中的链接施加约束。例如,从电影到其导演的链接必须将电影类型的对象连接到人物类型的对象。在某些情况下,链接本身可能具有自己的属性:连接演员和电影的链接可能具有演员扮演的特定角色的名称。类似地,连接政治家和政府中特定职位的链接可能具有政治家担任该职位的时期。

知识图谱和类似的结构通常在组织内提供共享的知识基础,允许不同的产品和应用程序使用相似的词汇表,并重用其他人创建的定义和描述。此外,它们通常提供紧凑的形式化表示,开发人员可以使用它来推断新事实并构建知识——例如,使用连接电影和演员的图谱来找出哪些演员经常一起出现在电影中。

本文着眼于五家不同科技公司的知识图谱,比较他们在构建和使用图谱方面的各自经验的相似之处和不同之处,并讨论所有知识驱动型企业今天面临的挑战。此处讨论的知识图谱集合涵盖了广泛的应用,从搜索、产品描述到社交网络

• 微软的 Bing 知识图谱和谷歌知识图谱都支持搜索和回答搜索和对话中的问题。从人物、地点、事物和组织的描述和联系开始,这些图谱包含了关于世界的通用知识。

• Facebook 拥有世界上最大的社交图谱,其中还包括关于音乐、电影、名人以及 Facebook 用户关心的地点的信息。

• eBay 正在开发的商品知识图谱将编码关于商品、实体以及它们之间和与外部世界关系的语义知识。

• IBM Watson Discovery 产品的知识图谱框架满足两个要求:一个侧重于发现非显而易见的信息的用例,另一个侧重于提供“构建您自己的知识图谱”框架。

这里的目标不是详尽地描述这些知识图谱,而是利用作者在当今一些最大的科技公司构建知识图谱的实践经验作为支架,以突出任何企业级知识图谱将面临的挑战以及需要进行哪些创新研究。

 

图谱中有什么?设计决策

让我们首先描述五个知识图谱以及每个图谱的设计和确定范围的决策。每个图谱的不同应用和产品目标导致了不同的方法和架构,尽管许多挑战是所有企业共有的。表 1 总结了这些知识图谱的属性。

表 1:知识图谱的共同特征

数据模型 图谱大小 开发阶段
微软 图谱中实体的类型、关系和属性在本体中定义。 约 20 亿个主要实体,约 550 亿个事实 积极用于产品中
谷歌 强类型实体,具有域和范围推断的关系 10 亿个实体,700 亿个断言 积极用于产品中
Facebook 所有的属性和关系都是结构化的和强类型的,并且可以选择性地索引以实现高效的检索、搜索和遍历。 约 5000 万个主要实体,约 5 亿个断言 积极用于产品中
eBay 实体和关系,结构良好且强类型 预计约 1 亿件商品,超过 10 亿个三元组 开发和部署的早期阶段
IBM 实体和关系,以及与之相关的证据信息。 各种大小。已在超过 1 亿份文档、超过 50 亿个关系、超过 1 亿个实体的规模上验证 积极用于产品和客户

 

微软

微软的工程师和科学家多年来一直致力于大规模图谱的研究。这项工作包括构建从底层研究到全球数亿用户的端到端系统。在整个公司中,有几个主要的图谱系统,每个系统都在创建图谱和保持图谱更新方面带来了特定的挑战。许多不同的产品可以使用知识图谱为消费者带来价值。以下是微软的一些图谱

• Bing 知识图谱包含关于世界的信息,并支持 Bing 上的问题解答。它包含诸如人物、地点、事物、组织、位置等等的实体,以及用户可能采取的行动(例如,播放视频或购买歌曲)。这是微软最大的知识图谱,因为它的目标是包含关于整个世界的通用知识。

• 学术图谱是人物、出版物、研究领域、会议和地点等实体的集合。它允许用户查看研究人员和研究成果之间的联系,而这些联系可能难以确定。

• LinkedIn 图谱包含人物、工作、技能、公司、地点等等的实体。LinkedIn 经济图谱基于 5.9 亿会员和 3000 万家公司,用于查找国家和地区的经济层面见解。

当有额外的有用信息时,Bing 搜索引擎会显示来自 Bing 知识图谱的知识面板。例如,搜索电影导演詹姆斯·卡梅隆会显示诸如他的出生日期、身高、他执导的电影和电视节目、以前的浪漫伴侣、他做的 TED 演讲以及 Reddit “Ask Me Anything” 问题和答案(通过与 Reddit 合作)等信息。搜索不同类型的实体会返回完全不同的信息——例如,搜索“Woodblock 餐厅”会显示菜单摘录、专业评论家和用户评论,以及预订餐桌的选项。

所有这些图谱系统——任何大型图谱系统的情况可能都是如此——都具有质量和实用性的三个关键决定因素

• 覆盖率。图谱是否包含所有需要的信息?答案总是有效地为否,因为开发人员总是在寻找为用户提供价值的新方法和新的信息来源。

• 正确性。信息是否正确?您如何知道两个信息来源实际上是关于同一事实的,如果它们冲突,您该怎么办?回答这些问题本身就是一个巨大的研究和投资领域。

• 新鲜度。内容是否是最新的?它可能曾经是正确的,但已经过时了。对于几乎不断变化的事物(股票价格),新鲜度会有所不同,而对于很少变化的事物(国家的首都),新鲜度也会有所不同,两者之间有许多不同种类的信息。

为了生成关于世界的知识,数据从多个来源摄取,这些来源可能非常嘈杂和矛盾,需要整理成一个单一、一致和准确的图谱。用户看到的最终事实只是冰山一角——下面隐藏着大量的工作和复杂性。例如,仅在维基百科中就有 200 个威尔·史密斯,而演员威尔·史密斯的 Bing 知识结果是由来自 41 个网站的 108,000 个事实组成的。

 

从搜索到对话

知识图谱为高级 AI 提供动力,允许将单个查询转变为持续的对话。具体来说,这允许用户与系统进行对话,并让系统在对话的每一轮中保持上下文。例如,在未来的场景中,用户可以对 Bing 说:“显示世界上现在气温超过华氏 70 度的所有国家”,一旦系统返回答案,用户可以说:“显示两小时飞行航程内的那些国家。”

您可以进一步扩展相同的想法,以实现完整的对话体验。例如,用户可以说:“我想在感恩节前两天去纽约市旅行一周”,系统将使用底层知识图谱来理解查询,然后请求缺少的信息。在这个例子中,系统需要知道“NYC”可能意味着“JFK 机场”,并且感恩节是 11 月 22 日。然后它必须知道如何进行航班搜索,这需要出发地点和目的地地点。然后,系统必须知道对话的下一行需要确定出发地点,因此它会说:“好的,预订 11 月 20 日至 27 日从 JFK 出发的航班。您将从哪里起飞?”

 

谷歌

谷歌知识图谱拥有超过 700 亿个断言描述了 10 亿个实体,涵盖了广泛的主题,并且是来自各种各样的人(其中大多数人从未有过知识管理系统经验)十多年数据贡献活动的结果。

也许更重要的是,知识图谱充当了许多谷歌产品和功能在幕后使用的长期、稳定的类和实体身份来源。外部用户和开发人员在使用 YouTube 和 Google Cloud API 等服务时可以观察到这些功能。这种对身份的关注使谷歌能够过渡到“事物而非字符串”。知识图谱不是简单地返回传统的“10 个蓝色链接”,而是帮助谷歌产品将用户请求解释为对用户世界中概念的引用,并做出适当的响应。

当用户发出关于实体的查询时,谷歌的知识图谱可能最明显,搜索结果中包含从知识图谱提供的关于实体的各种事实。例如,对“贝聿铭”的查询会在搜索结果中生成一个小面板,其中包含关于这位建筑师的教育、奖项和他设计的标志性建筑的信息。

知识图谱还认识到某些类型的交互可以与不同的实体发生。对“俄罗斯茶室”的查询提供了一个预订按钮,而对“瑞塔·奥拉”的查询则提供了指向她在各种音乐服务上的音乐的链接。

在谷歌知识图谱的规模上,单个人无法记住,更不用说管理整个图谱中使用的详细结构了。为了确保系统随着时间的推移保持一致性,谷歌从一组基本的低级结构构建了其知识图谱。它在不同的抽象级别复制了类似的结构和推理机制,从概念上从许多基本断言中引导了结构。例如,为了检查特定的不变构造,谷歌利用了类型本身就是类型实例的想法,引入了元类型的概念。然后,它可以推理元类型以验证更细粒度的类型是否违反了它感兴趣的不变性。它可以验证时间无关的身份不是时间相关的结构的子类。这种可扩展的抽象级别相对容易添加,并且开箱即用,因为它建立在系统其余部分所基于的相同的低级蕴涵之上。

这种元级别模式还允许大规模验证数据。例如,您可以通过将画家识别为他们的绘画作品“产品”的“起源”,并对这些元类之间的所有关系应用一般检查,来验证画家在他们的艺术作品创作之前就存在。

在稍微更高的概念层面,知识图谱“理解”作者与他们的创意作品是不同的,即使这些实体在口语表达中经常被混淆。同样,创意作品可能具有多个本身不同的表达形式。这种本体论知识有助于在图谱增长时维护实体的身份。

通过这些自描述层构建知识图谱不仅简化了机器的一致性检查,而且使内部用户更容易理解知识图谱。一旦新的开发人员接受了知识图谱组织基础知识的培训,他们就可以理解其结构清单的全部范围。同样,通过将图谱的结构与一些核心原则联系起来,并在模式中显式公开元关系,内部开发人员可以更轻松地查找和理解新的模式结构。

 

Facebook

Facebook 以拥有世界上最大的社交图谱而闻名。Facebook 工程师在过去十年中构建了技术,以实现人与人之间丰富的联系。现在,他们正在应用相同的技术来更深入地了解不仅是人,还有人们关心的事物。

通过以结构化的方式和规模对世界进行建模,Facebook 工程师能够解锁社交图谱本身无法满足的用例。即使是看似简单的事情,例如对音乐和歌词的结构化理解,当与检测人们何时引用它们的软件结合使用时,也可以在个人之间实现意外的时刻。如今,Facebook 产品中的许多体验,例如帮助人们在 Messenger 上计划电影郊游,都是由知识图谱驱动的。

Facebook 的知识图谱侧重于社交相关性最高的实体,例如其用户最常讨论的实体:名人、地点、电影和音乐。随着 Facebook 知识图谱的不断增长,开发人员专注于那些最有可能提供实用性和令人愉悦的用户体验的领域。

覆盖率、正确性、结构和不断变化都驱动着 Facebook 知识图谱的设计

• 覆盖率意味着在正在建模的领域中做到详尽。默认立场是多提供商,这意味着整个图谱生产系统都是在假设将从多个来源接收数据的情况下构建的,所有来源都提供关于重叠实体集(有时是冲突的)信息。Facebook 知识图谱以两种方式处理冲突信息:(1)信息被认为置信度足够低,足以证明放弃它是合理的;或者(2)冲突的视图通过保留出处和关于断言的推断置信度级别而被纳入实体。

• 正确性并不意味着知识图谱总是知道属性的“正确”值,而是意味着它始终能够解释为什么做出某个断言。因此,它保留了流经系统的所有数据的出处,从数据采集到服务层。

• 结构意味着知识图谱必须是自描述的。如果一段数据不是强类型的,或者不符合描述实体的模式,那么图谱会尝试执行以下操作之一:(1)将数据转换为预期的类型(例如,执行简单的类型强制转换,处理格式不正确的日期);(2)提取与类型匹配的结构化数据(例如,在非结构化文本(如用户评论)上运行 NLP [自然语言处理] 以转换为类型化的槽);或者(3)完全忽略它。

• 最后,Facebook 知识图谱是为不断变化而设计的。图谱不是数据库中的单个表示,而是在收到新信息时更新的。相反,图谱每天都从头开始、从源头构建,并且构建系统是幂等的——在结束时生成完整的图谱。

Facebook 知识图谱的一个明显的起点是 Facebook 页面生态系统。企业和个人在 Facebook 上创建页面来代表各种各样的想法和兴趣。此外,让实体所有者对其进行断言是宝贵的数据来源。然而,与任何众包数据一样,它并非没有挑战。

Facebook 页面是面向公众的,每天有数百万人与之互动。因此,页面所有者的兴趣并不总是与知识图谱的要求一致。

最常见的是,页面和实体没有严格的 1:1 映射,因为页面可以代表实体集合(例如,电影系列)。数据也可能不完整或非常非结构化(文本块),这使得它更难以在知识图谱的上下文中使用。

Facebook 最大的挑战一直是利用在其页面上找到的数据,并将其与其他更结构化的数据源结合起来,以实现干净、结构化的知识图谱的目标。Facebook 的一个有用工具是将图谱视为模型,并将 Facebook 页面视为视图——驻留在图谱中的实体或实体集合的投影。

 

eBay

eBay 正在构建其商品知识图谱,该图谱将编码关于商品、实体以及它们之间和与外部世界关系的语义知识。这些知识将是理解卖家提供什么和买家寻找什么以及智能地将两者连接起来的关键,这是 eBay 市场技术的关键部分。

例如,eBay 的知识图谱可以将商品与真实世界的实体联系起来,定义商品的身份以及它为什么对买家有价值。芝加哥公牛队的篮球衫是一件商品,但如果是迈克尔·乔丹签名的,那就是一件非常不同的商品。1940 年来自巴黎的明信片可能只是一张明信片;知道巴黎在法国并且 1940 年是第二次世界大战期间完全改变了商品。

知识图谱中的实体还可以将商品相互关联。如果用户搜索莱昂内尔·梅西的纪念品,并且图谱表明莱昂内尔·梅西效力于巴塞罗那足球俱乐部,那么,也许,该俱乐部的商品也很有趣。也许其他著名的巴塞罗那球员的纪念品也会让这位购物者感兴趣。相关的商品应包括足球相关的商品,如签名球衣、球衣、球鞋和足球。

与实体关系同样重要的是理解商品本身及其关系。知道一件商品是 iPhone,另一件商品是 iPhone 的保护壳显然很重要。但保护壳可能适合某些手机而不适合其他手机,因此 eBay 需要对零件和配件尺寸进行建模。了解商品的许多变体和关系也很重要:哪些商品是一个商品的制造商变体?它们是否有不同的尺寸、容量或颜色?哪些是可比的——意味着它们具有大致相同的规格,但可能品牌或颜色不同?系统还需要了解成套出售的商品,例如捆绑销售、套装甚至时装。

与其他知识图谱一样,eBay 必须应对规模。在任何时候,都可能有超过 10 亿个活跃商品列表,跨越数千个类别。这些商品列表可能包括数亿件商品和为这些商品指定的数百亿个属性。

eBay 知识图谱有几个不同的用户,这些用户对服务级别有非常不同的要求。当搜索服务需要理解用户的查询时,知识图谱必须在毫秒内为答案提供支持。在规模的另一端,大型图谱查询可能需要数小时才能运行。

为了应对这些挑战,eBay 工程师设计了一种架构,该架构为他们提供了灵活性,同时确保数据的一致性。知识图谱为所有写入和编辑图谱的操作使用复制日志。日志提供了数据的一致有序视图。这种方法支持多个后端数据存储,以满足不同的用例。具体来说,有一个扁平化的文档存储用于以低延迟服务搜索查询,以及一个图谱存储用于进行长时间运行的图谱分析。这些存储中的每一个都只是将其操作附加到写入日志,并以保证的顺序获取对图谱的添加和编辑。因此,每个存储将是一致的。

 

IBM

IBM 开发了其知识图谱框架,该框架被 Watson Discovery Services 及其相关产品使用,这些产品已部署在 IBM 以外的许多行业环境中。IBM Watson 以两种不同的方式使用知识图谱框架:首先,该框架直接为 Watson Discovery 提供支持,后者侧重于使用结构化和非结构化知识来发现新的、非显而易见的信息,以及 Discovery 之上的相关垂直产品;其次,该框架允许其他人以预构建的知识图谱为核心构建自己的知识图谱。

Discovery 用例创建了在领域文档或数据源中不直接存在的新知识。这种新知识可能令人惊讶和异常。虽然搜索和探索工具访问系统中已有的来源中已有的知识,但它们对于 Discovery 来说是必要的但不是充分的。非显而易见的发现包括实体之间的新链接(例如,药物的新副作用、作为收购目标或销售线索的新兴公司)、领域中潜在的新重要实体(例如,显示技术的新材料、特定投资领域的新投资者),或现有实体的变化意义(例如,投资者在组织中不断增加的股份,或情报收集场景中感兴趣的人与某些罪犯之间不断增加的互动)。

鉴于其在各个领域应用认知技术的广泛企业客户群,IBM 专注于为客户和客户团队创建框架,以构建他们自己的知识图谱。IBM 的行业团队利用此框架构建特定领域的实例。客户遍布多个领域,从面向消费者的银行和金融、保险、IT 服务、媒体和娱乐、零售和客户服务研究,到几乎完全专注于深度发现的行业——尤其是生命科学、石油和天然气、化学品和石油、国防和太空探索等科学领域。这种广度要求框架具有客户构建和管理自己的知识图谱所需的所有机制。构建到框架中的一些关键技术包括文档转换、文档提取、段落存储和实体规范化。

以下是 IBM 工程师从为 Watson Discovery 构建知识图谱以及在其他行业部署系统中学到的一些关键见解和经验教训。

• 多态存储提供了一种解决方案。IBM Watson 知识图谱使用多态存储,支持多个索引、数据库结构、内存和图谱存储。这种架构将实际数据(通常是冗余的)拆分到一个或多个这些存储中,允许每个存储解决特定的需求和工作负载。IBM 工程师和研究人员解决了一些挑战,例如保持这些多个存储同步、允许通过微服务在存储之间进行通信,以及允许以不需要重新加载或重建整个图谱的方式摄取新知识或重新处理原始数据。

• 证据必须是系统的原语。真实世界(开发人员经常尝试建模)与保存提取知识的数据结构之间的主要链接是知识的“证据”。此证据通常是原始文档、数据库、字典或从中导出知识的图像、文本和视频文件。当在发现过程中提出有针对性和有用的上下文查询时,元数据和其他相关信息通常在知识的推断中发挥作用。因此,不丢失图谱中存储的关系与这些关系来源之间的联系至关重要。

• 通过上下文将实体解析推迟到运行时。解析对部分名称、表面形式或具有相同名称的多个实体引用的实体的歧义引用是理解自然语言中的一个经典问题。然而,在知识发现领域,开发人员通常寻找非显而易见的模式,其中实体没有以其广为人知的形式表现,或者出现在新的上下文中。因此,在知识图谱创建过程的早期对实体进行消歧会与发现的最终目标相冲突。最好让这些话语保持未解析状态或将它们消歧为多个实体,然后在运行时使用查询的上下文来解析实体名称。

 

未来的挑战

此处讨论的知识图谱的需求、覆盖率和架构差异很大,但许多挑战在大多数实现中都持续存在。这些挑战包括规模、消歧、从异构和非结构化来源提取知识以及管理知识演变方面的挑战。这些挑战多年来一直处于研究的最前沿,但它们仍然困扰着行业从业者。一些挑战存在于某些系统中,但在其他环境中可能不太相关。

 

实体消歧和管理身份

虽然实体消歧和解析是语义网以及现在知识图谱中多年的活跃研究领域,但几乎令人惊讶的是,它仍然是几乎所有行业中最严峻的挑战之一。在其最简单的形式中,挑战在于为实体的发声或提及分配唯一的规范化身份和类型。许多自动提取的实体具有非常相似的表面形式,例如具有相同或相似名称的人,或具有相同或相似标题的电影、歌曲和书籍。具有相似名称的两种商品可能指的是不同的商品列表。如果没有正确的链接和消歧,实体将被错误地与错误的事实相关联,并导致下游不正确的推断。

虽然这些问题在较小的系统中可能看起来很明显,但当必须使用异构贡献者基础并在大规模下进行身份管理时,问题变得更具挑战性。如何以不同的团队可以同意并知道其他团队在描述什么的方式描述身份?开发人员如何确保拥有足够的人类可读信息来裁决冲突?

 

类型成员资格和解析

当今大多数知识图谱系统都允许每个实体具有多种类型,并且特定类型在不同情况下可能很重要。例如,巴拉克·奥巴马是一个人,但也是一位政治家和演员——一位非常受欢迎的政治家,而不是一位非常知名的演员。古巴可以是一个国家,也可以指它的政府。在某些情况下,知识图谱系统将类型分配推迟到运行时:每个实体描述其属性,应用程序根据用户任务使用特定的类型和属性集合。

虽然类成员资格的标准在早期可能很简单,但随着实例宇宙的增长,在保持语义稳定性的同时强制执行这些标准变得具有挑战性。例如,当谷歌在其知识图谱中定义“体育”类别时,电子竞技并不存在。那么,谷歌如何在保持体育类别身份的同时也包括电子竞技?

 

管理变化的知识

一个有效的实体链接系统也需要根据其不断变化的输入数据进行有机增长。 例如,公司可能会合并或拆分,新的科学发现可能会将现有实体分解为多个。 当一家公司收购另一家公司时,收购公司是否会改变身份? 分部剥离又如何呢? 身份是否会随着名称权的收购而转移?

虽然大多数知识图谱框架在存储知识图谱的某个时间点版本以及管理对知识图谱的瞬时更改以发展图谱方面变得高效,但在管理图谱中高度动态的知识方面存在差距。4 需要对时间结构、历史和随历史的变化有基本的理解,才能捕捉到这些变化。 此外,还需要通过多个存储(例如,IBM 的多态存储)来管理更新的能力。

围绕更新过程的完整性、最终一致性、冲突更新以及简单的运行时性能,有很多考虑因素。 或许可以考虑设计现有分布式数据存储的不同变体,以处理增量级联更新。 管理不断变化的模式和类型系统,而不会与系统中已有的知识产生不一致性,也至关重要。 例如,谷歌通过将元模型层概念化为多个层来解决这个问题。 基本的下层保持相当稳定,而更高的层是通过元类型(实际上是类型的实例)的概念构建的,元类型可以用来丰富类型系统。

 

从多个结构化和非结构化来源提取知识

尽管自然语言理解最近取得了进展,但结构化知识(包括实体、它们的类型、属性和关系)的提取仍然是一项普遍存在的挑战。 以规模扩展图谱不仅需要人工方法,还需要从开放域的非结构化数据中进行无监督和半监督的知识提取。

例如,在 eBay 产品知识图谱中,许多图谱关系是从列表和卖家目录中的非结构化文本中提取的;IBM Discovery 知识图谱依赖文档作为图谱中表示的事实的证据。 传统的监督式机器学习框架需要劳动密集型的人工注释来训练知识提取系统。 采用完全无监督的方法(使用向量表示进行聚类)或半监督技术(使用现有知识进行远程监督、多实例学习、主动学习等),可以减轻或消除这种高成本。 实体识别、分类、文本和实体嵌入都被证明是将我们的非结构化文本链接到我们在图谱中了解的实体的有用工具。3

 

大规模管理运营

毫不奇怪,这里描述的所有知识图谱系统都面临着大规模管理图谱的挑战。 这种维度通常使得在学术和研究界以多种形式解决的问题(例如歧义消除和非结构化数据提取)在行业环境中呈现出新的挑战。 管理规模是直接影响与性能和工作负载相关的多个操作的根本挑战。 它也会间接地表现出来,因为它会影响其他操作,例如在 IBM 管理对大规模知识图谱的快速增量更新,或在 Google 管理大型演化知识图谱上的一致性。1

 

其他关键挑战

除了这些普遍存在的挑战之外,以下挑战对于本文中描述的工作至关重要。 这些是研究和学术界有趣且引人入胜的课题。

 

知识图谱语义嵌入

借助大规模知识图谱,开发人员可以构建实体和关系的高维表示。 由此产生的嵌入将极大地受益于许多机器学习、NLP 和 AI 任务,作为特征和约束的来源,并且可以构成更复杂的推理和管理训练数据方式的基础。 深度学习技术可以应用于实体去重和属性推断问题。2

 

知识推理和验证

确保事实正确是构建知识图谱的核心任务,并且由于规模庞大,手动验证所有内容是不可能的。 这需要一种自动化方法:知识表示和推理、概率图模型以及自然语言推理的进步可以用来构建用于一致性检查和事实验证的自动或半自动系统。

 

全球、领域特定和客户特定知识的联合

在像 IBM 客户这样的案例中,他们构建自己的定制知识图谱,客户不应被期望告诉图谱关于基本知识。 例如,癌症研究人员不会教知识图谱皮肤是一种组织,或者圣裘德是田纳西州孟菲斯市的一家医院。 这被称为“通用知识”,它被捕获在通用知识图谱中。

下一级信息是该领域任何人都熟知的知识——例如,癌是一种癌症,或者 NHL 更常代表非霍奇金淋巴瘤而不是国家冰球联盟(尽管在某些情况下它可能仍然意味着那个——例如,在 NHL 球员的患者记录中)。 客户只需要输入私有和机密知识或系统尚不知道的任何知识。 基础层和领域层的隔离、联合和在线更新是由于此要求而出现的一些主要问题。

 

个性化、设备端知识图谱的安全性和隐私

知识图谱顾名思义是庞大的,因为它们渴望为世界上每个名词创建一个实体,因此只能合理地在云端运行。 然而,实际上,大多数人并不关心世界上存在的所有实体,而是关心与他们个人相关的一小部分或子集。 个人用户知识图谱的个性化领域,甚至可以将它们缩小到足够小以至于可以运送到移动设备的程度,这方面有很多前景。 这将允许开发人员通过在本地小型知识图谱实例上进行更多的设备端学习和计算,以尊重隐私的方式继续提供用户价值。(我们渴望与研究界合作追求这一目标。)

 

多语言知识系统

一个全面的知识图谱必须涵盖以多种语言表达的事实,并将这些语言中表达的概念整合到一个有凝聚力的集合中。 除了从多语言来源提取知识的挑战之外,不同的文化可能会以微妙不同的方式概念化世界,这对本体的设计也提出了挑战。

 

结论和最终想法

从本文的讨论中自然而然地产生的问题是,不同的知识图谱是否有一天可以共享某些核心元素,例如对人、地点和类似实体的描述。 共享这些描述的途径之一可能是将它们贡献给 Wikidata 作为通用的多语言核心。 在短期内,我们希望继续与公司外部的研究人员和从业人员分享我们每个人可能完成的研究成果。

知识表示是一项很难在工作中学习的技能。 开发的节奏以及知识表示选择对用户和数据的影响规模,并没有营造一个理解和探索其原理和替代方案的环境。 正如本文的讨论所证明的那样,知识表示在不同的行业环境中的重要性应该加强这样一种观念,即知识表示应该成为计算机科学课程的基本组成部分——与数据结构和算法一样基础。

最后,我们都认为人工智能系统将为组织在如何与客户互动、在其领域提供独特价值以及转变其运营和劳动力方面释放新的机会。 为了实现这一承诺,这些组织需要弄清楚如何构建新的系统来释放知识,使其成为真正智能的组织。

 

本文总结并扩展了作者于 2018 年 10 月在加利福尼亚州阿西洛马举行的国际语义网会议上进行的小组讨论(http://iswc2018.semanticweb.org/panel-enterprise-scale-knowledge-graphs/)。 讨论基于实践经验,仅代表作者的观点,不一定代表其雇主的观点。

 

参考文献

1. Höffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J., Ngonga Ngomo, A.C. 2017. Semantic Web 中问题解答挑战的调查。 语义网 8(6), 895-920.

2. Lin, Y., Liu, Z., Sun, M., Liu, Y., Zhu, X. 2015. 学习实体和关系嵌入以完成知识图谱。 人工智能促进协会会议 (AAAI) 15, 2181-2187.

3. Nickel, M., Murphy, K., Tresp, V., Gabrilovich, E. 2016. 知识图谱关系机器学习综述。 IEEE 会刊 104(1), 11-33.

4. Paulheim, H., 2017. 知识图谱精化:方法和评估方法调查。 语义网 8(3), 489-508.

 

Natasha Noy 是谷歌的科学家,她在那里致力于使结构化数据易于访问和使用。 在加入谷歌之前,她在斯坦福生物医学信息学研究中心工作,在那里她在本体开发和对齐以及协作本体工程领域做出了重大贡献。 她是语义网科学协会的直接前任主席,并且是多家语义网和信息系统期刊的编委会成员。

Yuqing Gao 是微软人工智能 - 知识图谱组织总经理。 作为一位因数据科学突破而获得全球认可的技术先驱,她一直是微软 Office 产品、Bing 实体搜索和其他著名的 AI 知识驱动的微软技术背后的关键领导者。 她的工作曾被麻省理工学院技术评论时代杂志、CNN、ABC、BBC 和许多主要媒体报道。 高女士因其在语音识别、语音到语音翻译和自然语言理解方面的杰出贡献而被授予 IEEE Fellow 称号。 她还曾担任 IBM 杰出工程师(2013-2014 年)。

Anshu Jain 在 IBM Watson 工作,在那里他负责核心知识和语言能力的架构。 这包括知识图谱、自然语言理解和 Watson Knowledge Studio 等。 他在知识发现和知识图谱方面拥有丰富的背景,曾担任 IBM Watson 早期知识图谱实现的开发主管。 他最近正在领导一个框架的设计,以在整个 AI 堆栈中提供丰富且一致的领域特定知识。

Anant Narayanan 是 Facebook 的工程经理,在那里他帮助构建知识平台,通过更深入地了解实体和关系来支持各种产品。 在加入 Facebook 之前,他领导了 Ozlo 的大规模数据管道的开发,以支持对话式 AI 系统。 他是 Firebase 的早期工程师,Firebase 是一家开发者工具公司,现在是 Google Cloud Platform 的一部分。 在职业生涯早期,Narayanan 曾是 Mozilla 的软件工程师,从事各种支持 Firefox 的项目,最著名的是 WebRTC。

Alan Patterson 是 eBay 的杰出工程师,负责领导 eBay 构建产品知识图谱的工作。 该图谱包含 eBay 的产品、关系、变体以及周围世界(如组织、品牌、人物、地点和标准)的知识。 此前,他曾在一家名为 True Knowledge(也称为 Evi.com)的初创公司工作,该公司开发了知识图谱和问题解答服务。 True Knowledge 被亚马逊收购,现在构成了 Alexa 的核心部分。

Jamie Taylor 管理谷歌知识图谱的模式团队。 该团队的职责包括扩展 KG 的底层语义表示、扩大本体的覆盖范围以及执行语义策略。 在加入谷歌之前,他在 Metaweb Technologies 收购后加入谷歌,他在那里担任信息部长,帮助组织 Freebase 中的数据并将语义表示传播给 Web 开发人员。 在 Metaweb 之前,他曾在企业软件领域工作,担任 Determine Software 的 CTO,在此之前,他创立了旧金山最早的 ISP 之一。 他是 O'Reilly 图书编程语义网的合著者。 Taylor 拥有哈佛大学博士学位,并毕业于科罗拉多学院,并以优异的成绩毕业,获得学士学位。

 

相关文章

Schema.org:Web 上结构化数据的演变

大数据使通用模式变得更加必要。

R.V. Guha、Dan Brickley 和 Steve Macbeth

https://queue.org.cn/detail.cfm?id=2857276

 

Hazy:使构建和维护大数据分析更加容易

利用最新的统计和机器学习技术,竞相释放大数据的全部潜力。

Arun Kumar、Feng Niu 和 Christopher Ré

https://queue.org.cn/detail.cfm?id=2431055

 

出处入门

更好地理解数据需要跟踪其历史和上下文。

Lucian Carata 等人。

https://queue.org.cn/detail.cfm?id=2602651

版权所有 © 2019,所有者/作者所有。 出版权已许可给 。

acmqueue

最初发表于 Queue vol. 17, no. 2
数字图书馆 中评论这篇文章





更多相关文章

Catherine Hayes, David Malone - 质疑评估非加密哈希函数的标准
虽然加密和非加密哈希函数无处不在,但它们的设计方式似乎存在差距。 许多标准都适用于由各种安全要求驱动的加密哈希,但在非加密方面,存在一定的民间传说,尽管哈希函数历史悠久,但尚未得到充分探索。 虽然针对现实世界数据集的均匀分布很有意义,但当面对具有特定模式的数据集时,它可能是一个挑战。


Nicole Forsgren, Eirini Kalliamvakou, Abi Noda, Michaela Greiler, Brian Houck, Margaret-Anne Storey - DevEx 行动
随着领导者寻求在财政紧缩和人工智能等变革性技术的背景下优化软件交付,DevEx(开发者体验)在许多软件组织中越来越受到关注。 从直觉上看,技术领导者普遍认为良好的开发者体验可以提高软件交付效率和开发者幸福感。 然而,在许多组织中,旨在改进 DevEx 的拟议倡议和投资难以获得支持,因为业务利益相关者质疑改进的价值主张。


João Varajão, António Trigo, Miguel Almeida - 低代码开发生产力
本文旨在通过展示使用基于代码、低代码和极限低代码技术进行的实验室实验结果,以研究生产力差异,从而为该主题提供新的见解。 低代码技术清楚地显示出更高的生产力水平,为低代码在短期/中期内主导软件开发主流提供了有力的论据。 本文报告了程序和协议、结果、局限性和未来研究的机会。


Ivar Jacobson, Alistair Cockburn - 用例至关重要
虽然软件行业是一个快节奏且令人兴奋的世界,其中不断开发新的工具、技术和技巧来服务于商业和社会,但它也很健忘。 在其快速前进的匆忙中,它容易受到时尚的异想天开的影响,并且可能会忘记或忽略一些其面临的永恒问题的成熟解决方案。 用例于 1986 年首次引入,后来得到普及,是这些成熟的解决方案之一。





© 保留所有权利。

© . All rights reserved.