人机交互的未来 -

2006年7月27日
第4卷，第6期

人机交互的未来

一场人机交互革命即将到来？

约翰·坎尼，加州大学伯克利分校

个人计算始于IBM PC。但大众计算——面向大众的计算——始于现代WIMP（窗口、图标、鼠标、指针）界面，这使得普通人可以使用计算机。随着大众计算的增长，HCI（人机交互）的作用也随之增加。如今，大多数软件都是交互式的，与界面相关的代码占所有代码的一半以上。人机交互在应用程序设计中也起着关键作用。在消费市场中，产品的成功取决于每个用户的使用体验。不幸的是，后端出色的工程设计会被糟糕的界面所抵消，而良好的用户界面可以支撑一款产品，即使其内部存在弱点。

然而，更重要的是，将“界面”与产品的其余部分分离并不是一个好主意，因为客户将产品视为一个整体系统。“从界面向内”设计是当今的先进水平。因此，人机交互已扩展到包含“以用户为中心的设计”，其中包括从需求分析、概念开发、原型设计和设计演变到产品发布后的支持和现场评估等所有内容。这并不是说人机交互吞噬了软件工程的全部。但是，以用户为中心的设计方法——情境探询、人种学、用户行为的定性和定量评估——与计算机工程其余部分的方法截然不同。因此，在产品开发的各个阶段都有具备这些技能的人员参与非常重要。

尽管人机交互课程的内容和方法不为人所熟悉，但在大学课程中需求量很大，并且应该成为核心课程的一部分。在最近加州大学伯克利分校计算机科学系的行业顾问委员会会议上，人机交互被行业专家一致认为是未来研究和教学的最重要优先事项。即使在今天的商业市场中，易用性仍然是IT增长和成功的障碍。而且，它无疑是智能手机、家庭媒体设备、医疗设备和汽车界面等新兴市场的主要挑战。

在我们探索人机交互的未来之前，回顾过去的一些关键经验教训非常重要。人机交互的许多核心思想可以追溯到范内瓦尔·布什的“记忆延伸器”（memex）论文（《诚如所思》，《大西洋月刊》，1945年7月）、J.C.R. 利克莱德在20世纪60年代担任DARPA主任期间对网络化IT的愿景，以及道格拉斯·恩格尔巴特在1968年12月旧金山秋季联合计算机会议上令人惊叹的NLS（在线系统）演示。在承认这些先驱的同时，我们将直接跳到人机交互的“现代时代”，这直接导致了大众计算的普及。这个时代的孵化器不出所料是施乐帕克研究中心（Palo Alto Research Center）。

过去

1970年，艾伦·凯来到刚刚成立的施乐帕克研究中心，他的灵感来自于为普通用户设计笔记本电脑的愿景。那时，个人电脑还是少数狂热分子的梦想。当时有一些小型计算机（例如，PDP11于1970年问世），但这些机器当然是为工程师和科学家准备的。凯和其他帕克研究中心的工程师（包括巴特勒·兰普森和查克·萨克）开始开发计算机，其非凡的想法是将它们提供给普通人使用。凯还在研究Smalltalk（一种儿童语言），不久之后就推出了Smalltalk-72。他在20世纪70年代提出的笔记本电脑式Dynabook在当时是不可行的，但该小组在1973年确实生产出了施乐奥拓（Xerox Alto）桌面计算机。奥拓配备了鼠标、以太网和重叠窗口显示。它是一项技术奇迹，但不一定易于使用。它具有鼠标功能，但主要是一台“面向文本”的机器。它也缺乏杀手级应用（教训1）。虽然奥拓是为普通用户开发的，但当时尚不清楚这个市场究竟是什么样子（教训2）。大多数奥拓似乎都被出售或赠送给了工程实验室。

1976年，施乐办公产品部门的唐·马萨罗推动了一个面向办公环境的个人电脑概念，称为Star。施乐为Star创建了一个独立的发展部门，由大卫·利德尔领导。该部门与帕克研究中心密切合作，但不是帕克研究中心的一部分。Star被公认为第一台“现代”WIMP计算机。看看截图，或者实际使用一台机器（我曾在Interval Research的回顾展上体验过），都会令人震惊地发现它比后来的产品要好得多。利德尔打趣说，Star“比它的后继者有了巨大的进步”。这不仅仅是它对WIMP界面和桌面隐喻的执行，还包括其非常简洁和一致的“面向对象性”——今天的右键菜单、控件和可嵌入对象都是Star设计的相当笨拙的回声。

然而，Star最引人注目的方面是其设计师用来开发它的过程，该过程已被广泛模仿，并使良好的界面设计成为一个可重复的过程。利德尔的第一步是在帕克研究中心研究人员的帮助下审查现有的开发流程，并制定Star将遵循的最佳实践文档。它包括任务分析、场景开发、快速原型设计和用户的概念模型。许多设计演变都发生在编写任何代码之前。代码开发本身由许多小步骤组成，并经常进行用户测试。这是以用户为中心的设计的一个教科书式的例子（它也出现在特里·温诺格拉德1996年的里程碑式教科书《将设计带入软件》中）。

即使是奥拓也遵循了更为经典的设计流程。这足以让奥拓进入正确的轨道，但那台机器给人的感觉就像是来自一个完全不同的时代。Star知道它想要成为什么，并且包含了一套优秀的办公软件。由于几乎肯定与界面或应用程序设计无关的原因，它在市场上失败了。它在Macintosh中的近乎翻版却取得了巨大的成功。因此（教训3），良好的大众市场设计需要以用户为中心的设计流程。而且，它通常需要真正的社会科学家或可用性专家以及工程师。

Star的设计如此出色，以至于人机交互研究人员经常受到“Star反弹”的冲击。它大概是这样的：“人机交互在过去20年中没有产生重大创新；今天的WIMP界面几乎与20世纪80年代的界面相同。”在许多“技术艺术”领域，这是一种赞美。但在计算机领域，我们把20年前的文物放在博物馆里，称它们为“恐龙”。但将这种思维方式应用于人机交互是错误的。人类是人机交互的关键要素。作为一个物种，人类进化速度并没有那么快，而且我们通常需要数年才能学好某些东西。我们在汽车中也有界面约定（顺时针表示右转，你在右侧驾驶，我也会这样做）。对这些约定进行“创新”是不好的。目前，我们无法用升级“刷新”人类，所以让我们不要这样做。令人惊奇的是（教训4），当你很好地执行以人为中心的设计流程时（在真实的用法环境中，就像Star设计师所做的那样），你会得到一个可以持续数十年的设计。几代人都可以学习它，并在无需担心以后会失去这项技能的情况下获得计算机能力。

出于同样的原因，当你设计新事物时，最好复制你能找到的每一个众所周知的约定，而不是创造一个新的约定。正如毕加索所说，“优秀的艺术家借鉴别人的作品，伟大的艺术家窃取。”因此（教训5），良好的人机交互设计是进化式的，而不是革命式的。

最后，从这两个系统中可以总结出一个总体教训（教训6）。现代大众计算机需要两种创新：自由奔放、愿景驱动的工程，通常以技术为中心，但理想情况下应以人类行为的高级原则为指导（奥拓）；以及谨慎的、情境驱动的、以人为中心的设计演变（Star）。这是一个关键点。你需要真正具有创造性的设计和工程来构思和执行一个全新的想法，但创新也需要验证。在人机交互中，验证意味着它能与真实用户良好地协同工作。为了实现这一点，必须发生以人为中心的设计演变。产品创新是一种很好的美德，但就市场适销性而言，它是一种选择。可用性则不是。

现在

到目前为止，听起来一切都很顺利。以用户为中心的设计效果良好，我们拥有良好的办公室信息系统，人机交互是一门扎实的学科（如果说它不令人兴奋，那是因为我们仍然喜欢每隔几年就出现突破）。那么，为什么要写一篇关于人机交互未来的文章，更重要的是，你为什么要读它呢？问题在于IT不再仅仅是关于办公室工作了。它正走向各个领域（是的，你听过这句话，但这次是真的）。正因如此，我们将在未来几年迎来另一次（实际上，可能是几次）人机交互革命。

让我们从PC开始。它们现在在哪里？英特尔最近进行了重组，以适应英特尔PC当今的主要市场领域。这些领域是办公室、家庭、医疗和移动。这意味着大量PC进入了新的场所，而且它们几乎都运行着Star风格的WIMP界面。

手机呢？全球手机年销量现在达到8亿部，约为PC（或电视机）年销量的四倍。近年来，手机总销量每年增长100%，智能手机销量每年增长近200%。在发达国家，销量已接近饱和，但在现在占主导地位的第三世界国家仍在加速增长。智能手机销量目前约占市场份额的15%（约1亿部），但凭借其更快的增长速度，预计到2008年将超过PC。今天的智能手机的性能与八年前的中端PC相当，但它们在媒体性能方面远胜后者。尽管现在智能手机软件的数量很少，但它是行业中增长最快的领域之一。不幸的是，如果你尝试过与一个重要的智能手机应用程序进行交互，你就会知道这有多么痛苦。人们已经勇敢地尝试从其WIMP界面根基上对其进行改进，但它仍然感觉不对劲——就像购物中心里的鲨鱼。

一大堆小工具正在争夺你客厅的主导地位。如果你有一个最先进的 кабельное 盒子（也可以录制40小时的高清电视节目），你就会知道它拥有连接到任何可以想象的媒体设备的硬件（但还没有软件）。它始终保持互联网连接，并具有自动软件升级功能，这使其在营销方面具有强大的优势。无论你是否要求，你总是会获得很酷的新服务。微软和苹果都有类似PC的产品进入这个市场，一些高端电视机将所有这些都包含在盒子里，当然还有游戏机，它们集成了大多数这些功能以及超高端图形。我把自己当成了这些东西的试验品，但它们真的很难用。无线键盘、大量遥控器、屏幕上的字母菜单——就像那些早期的带有缰绳的“无马马车”蒸汽汽车一样。再一次，感觉非常不对劲。

IT的其他新市场（医疗、汽车等）的情况也类似。在所有情况下，我们都在将为办公室完美优化的设计应用于完全不同的环境。如果过去的经验教训有任何意义的话，那就是行不通的。

未来：情境感知

在这些新领域中，什么会奏效？竞争当然还没有结束，但有一些非常好的赌注。让我们从手机开始。它有一个小屏幕，上面有很小的笨拙的按钮，而且没有鼠标。从一开始到最后，它都是为语音设计的。麦克风和扬声器虽然小巧，但高度进化，麦克风在其正常位置的放置对于语音识别来说是最佳的。我们稍后会讨论语音界面。如果它是智能手机，它可能还配备了摄像头和蓝牙无线电。它具有某种位置信息，范围从粗略的蜂窝塔到高度精确的辅助卫星GPS。

所有这些都是“情境”信息，与你在键盘上输入的“文本”或在屏幕上看到的“文本”形成对比。通常，WIMP界面完全依赖于你输入的文本（包括鼠标输入）来确定该做什么。情境感知界面会使用一切它们可以使用的东西。这对于手机尤其重要。当你使用手机时，你要么在某个“地点”（咖啡馆、餐厅、商店）做一些相当具体的活动，要么在地点之间移动。如果手机可以弄清楚那个地点是什么，它也可以提供你在那里想要的服务，或者补充该地点提供的服务（例如，音乐商店的歌曲预览、超市的价格比较、棒球比赛的统计数据或重播）。当你在地点之间移动时，手机可以使用其他情境信息来弄清楚要提供哪些服务，或者它可以等待你提出要求。

让我们通过一个具体的例子来说明：现在是晚上7点，正在下雨，你正在旧金山散步（你来自外地）。你打开手机，它显示三个按钮，分别标记为“晚餐？”、“出租车？”和“快速交通？”。选择“晚餐？”将显示你可能会喜欢的餐厅（使用协同过滤），甚至是你可能想要的菜肴。其他选项利用了手机“知道”你没有开车并且正在下雨这一事实。它还选择了“快速交通？”（使用这个名称而不是当地人熟知的BART，因为你不是本地人），而不是公交车或有轨电车选项，因为它知道你的目的地和/或因为BART对外地人来说比MUNI公交车和有轨电车系统更容易理解。该系统的“智能”建立在对其他用户行为的了解、对你自己的行为历史和偏好的了解以及即时情境（包括时间、地点、天气、蓝牙邻域等）的了解之上。这三部分代表了我们在所有工作中使用的情境的三个基本方面：即时情境；活动情境，它关系到特定用户和少数其他用户的历史（因为许多活动都是合作的）；以及情境情境，它关系到其他参与者在这种情况下通常的行为方式。

情境感知是营销人员的梦想。想象一下：手机不是用户发起“晚餐？”请求，而是发出哔哔声并显示一条消息，“Aqua餐厅（旧金山一家领先的海鲜餐厅）就在两个街区外，鲑鱼烤羊皮纸特价20美元。”现在，我是一个非常理性的人，但我也有一个对粉色鱼的弱点，当我疲惫又潮湿，看到这个消息时，其他选择是什么真的无所谓了。这是一个主动服务的例子，如果执行得当，应该对消费者和广告商都有利。在你提出《少数派报告》式的广告攻击的幽灵之前，我应该告诉你，我不希望让任何人向我的手机发送这种消息。我要为此收取很多费用（可能以整美元计算），所以广告商最好在尝试之前非常确定转化率。如果是这样，那么我很有可能在那个时候使用该服务，那么它对我来说就非常有用。如果Aqua餐厅当晚向附近的一些喜欢海鲜的外地人发送这条信标消息，并获得两到三次转化，那么餐厅就会领先。如果我在一个晚上收到六条这样的消息，其中一条为我提供了良好的服务，那么我会觉得自己赢了。如果它们都不奏效，那么至少我赚到了回家的BART（快速交通）车费和一些零钱。

使这项技术良好运行的技术挑战非常深入，其中许多挑战不属于传统的人机交互范畴。它们涵盖了Web 2.0业务的很大一部分范围：丰富的用户历史；高度个性化、耦合的服务；精心定位的营销；以及社交和个人服务。同样绝对重要的是，这些系统的构建要基于对用户行为、他们的需求和愿望以及使用这些服务的环境的深刻理解，而这正是人机交互方法发挥作用的地方。它还深入挖掘了人工智能（用于用户和社交建模和预测）；系统工程（构建和部署服务）；心理学、经济学和其他社会科学（用于理解理性和非理性用户行为）；以及非常广泛的安全概念（攻击包括使用机器人“消耗”广告商收入）。这些挑战将在未来几十年内吸引开发人员和研究人员。由于定向营销是Web 2.0公司的收入来源，因此这里的改进会直接（且快速地）影响利润。由于改进的空间似乎非常大，因此Web 2.0公司将在很长一段时间内将注意力和资源放在这里。

未来：感知界面

未来界面的另一个重要组成部分应该是“感知”。最简单的例子是语音识别，或者更准确地说，是基于语音的界面。另一个例子是计算机视觉。正如已经指出的那样，智能手机是出色的语音平台，但大多数智能手机也配备了摄像头和相当数量的CPU处理能力，尤其是在其数字信号处理器中。它们完全有能力使用来自摄像头的静止图像或视频进行计算机视觉处理。一个简单的例子是条形码识别，这在一些拍照手机上已经可用（商用手机上已经出现了二维和一维条形码阅读器）。用于名片识别的OCR（光学字符识别）也已在商业上应用。另一个例子是TinyMotion，这是我们实验室开发的一款手机软件应用程序，它使用拍照手机的视频来计算手机相对于背景的运动——就像光学鼠标一样。这为拍照手机创建了一个仅限软件的通用二维鼠标。TinyMotion对于地图浏览非常有用（这就是我们开发它的原因），这在基于位置的手机服务中很有用。事实证明，它也是智能手机游戏的良好界面，这可能比其目标市场更大。

这些手机视觉的利基应用具有启发性，但可能不足以令人信服地说明计算机视觉对手机的经济价值。让我们花点时间看看“社交媒体”，例如与朋友和家人分享的照片和视频等个人数据。正如之前所论证的那样，手机是一个通信和社交平台，照片分享很可能是手机上多媒体最流行的用途之一。我们在伯克利和业界的合作者一起探索了来自拍照手机图像的面部识别技术。该应用程序正是照片分享和存档。用户可能希望与照片中的人分享照片，并且希望获得关于照片中是谁的元数据，以便他或她以后在寻找特定人物时可以找到它。我们的研究结果很有趣，因为我们发现不仅可以使用计算机视觉相当好地识别对象，而且当使用情境数据以及计算机视觉时，识别准确率也显着提高。虽然我们的系统实际上是在PC而不是手机上进行识别的，但我们意识到，相同的最先进的PC算法可以轻松地在我们使用过的智能手机上运行。计算机视觉在管理个人媒体资产方面可以发挥重要作用，这不仅涉及移动市场，也涉及家庭市场。

转向ASR（自动语音识别）和VUI（语音用户界面），我们在2000年看到了这些行业的繁荣，随后几年出现了收缩。但2000年也是充满空头支票和不切实际的期望的时代。语音本应发生什么？首先，当PC主要在办公室时，VUI并没有多大意义。技术本身没有问题，但语音与大多数办公室工作不太匹配。让我们不要忘记文本在日常商务沟通中的显着优势：你可以扫描文本以查找你想要的内容，如果你不理解，你可以来回阅读，你可以在写作时编辑文本以确保你准确地表达你的意思，你可以通过长长的读者链转发文本而不会丢失其含义。书面文本通常比表达相同含义的口语更不容易产生歧义——我们并没有真正意识到这一点，但我们从小就被训练要更加谨慎地对待文本。此外，你可以在处理文本文档时，而无需邻居监听。许多知识工作都是关于管理结构化或半结构化信息（甚至在计算机出现之前）。大多数组织都依靠纸张来存储和精确、可靠地传递这些信息（同样在计算机出现之前）。语音技术当然可以发挥作用，但认为它可以取代办公室环境中大部分“文书工作”是错误的。正如乔丹·科恩（曾任VoiceSignal，现任SRI International）在本期访谈中指出的那样，语音技术成功的关键是首先确定它有意义的市场。

让我们记住施乐Star的教训。Star的一切都是关于拥有一个真实的用例环境（办公室工作）并确定一组适当的用户任务。手机主要用于使用各种媒体（声音、图像、文本）进行通信，并且越来越多地用于共享和存档这些媒体。为了支持和增强这些通信服务，我们需要了解这些媒体中“包含”什么，而这恰恰是机器感知任务。此外，如果手机要为用户提供其他服务（除了通信），它们还需要通过手机拥有的任何界面来解释用户的意图。我已经评论过用户在使用手机菜单和按钮时的辛劳，而与此同时，手机是一个完美进化的语音平台。语音界面看起来确实是一个绝佳的选择。它们的性能持续改进，但目前的水平比人们意识到的要好得多。

直到去年，像大多数人机交互研究人员一样，我对语音界面在人机交互中的价值持怀疑态度。但后来我看到三星手机（P207）在发售时配备了大词汇量语音识别功能，并在各种出版物（包括难以取悦的商业市场）中获得了非常好的用户评价。

我还教了一门关于医疗技术的课程，并有机会与许多护理人员会面。医疗领域已经存在一个庞大的语音产业，并且它被广泛视为向前发展的关键技术之一（它可能已经超越了“办公室ASR”，并且是语音识别产业的重要组成部分）。

我犯了一个严重的错误，将一种情境（办公室中的VUI）下的技术经验推广到其在不同情境下的应用。重要的是情境中的技术综合体。手机上的ASR和医疗领域的ASR是全新的市场。他们的用户不知道或不在乎语音在办公室中的历史。他们只是购买并使用它，他们要么喜欢它（到目前为止，一切顺利），要么不喜欢它。

我唯一与语音界面的直接经验是与新兴的自动化呼叫中心行业，这个行业一直很糟糕。但在更多地了解了最新的技术水平之后（兰迪·艾伦·哈里斯的《语音交互设计》或布莱德·科特利的《语音识别的艺术与商业》是很好的指南），我意识到有很多优秀的语音界面设计示例。这很像20世纪80年代的网站和GUI。当时，以人为中心的用户界面设计的实践并没有被广泛了解，但随着人机交互学科在学术界和产业界的发展，最佳实践得到了传播。不遵循良好以用户为中心流程的产品很快就被遵循良好流程的竞争对手所取代。对于语音界面，有一套与核心人机交互实践非常相似的以用户为中心的设计实践。到目前为止，它们尚未被广泛采用，但遵循这些实践的系统与不遵循这些实践的系统之间的差异如此显着，以至于这种情况不可能永远持续下去。

现在也已经清楚，界面ASR部分的识别准确率不是限制因素——限制因素是整体VUI设计的质量以及应用程序与其情境的匹配程度。换句话说，没有理由等待未来的技术奇迹才开始使用语音界面。你可以立即编写出色的语音界面，前提是语音交互适合你的应用程序情境。（请参阅《语音技术杂志》2003年7月/8月刊文章“‘会话式’并不总是你想的那样”中出现的最新示例；http://www.speechtechmag.com。）

在这些顿悟之后，我将我团队的大量活动转移到了语音和基于对话的界面（即，启动了四个新项目）。虽然今天在语音界面设计方面有很多良好的实践，并且可以用它们构建许多有用的服务，但仍然存在重大挑战和改进空间。这些限制与人类和机器共享语音界面之间的共同理解有关。这就是为什么语音界面也是一个丰富的研究领域。大部分共享信息是我们一直在谈论的情境，所有上述项目都与我们在情境感知方面的工作相结合（有关更多信息，请访问我的主页，http://www.cs.berkeley.edu/~jfc）。

关于隐私的一点（或两点）说明

感知界面意味着摄像头、麦克风和其他传感器捕捉用户的行为。情境感知意味着对这些数据进行高级解释，通常在远离数据捕获位置（在空间和时间上）的地方进行。这些都是隐私倡导者的热点问题。我的团队从事情境感知系统研究已有八年，隐私始终是一个问题。事实上，普适计算环境中的隐私已成为我们团队的主要关注点，并因此发表了六篇关于该主题的论文。解决这个问题的方法有很多种：为用户提供更好的建议和同意界面、匿名化以及各种形式的混淆（例如，降低位置信息的准确性）。在过去的四年里（UBICOMP 2002-2005），我共同组织了关于普适计算会议隐私的研讨会，这些研讨会很好地概述了该领域的工作（所有研讨会都可以在我的主页上找到）。

我们采取的方法，以及我们现在正在构建到情境感知原型中的方法是私有计算。在私有计算中，用户数据在计算过程中受到密码学保护，只有最终结果才会泄露。例如，我们对知识工作者的活动重叠感兴趣。可以通过发现用户彼此电子邮件中的相似关键词来推断这种重叠。通常，对完整电子邮件文本进行模式匹配会极具侵入性，但模式匹配的结果本身通常是良性的（例如，如果用户A和用户B共享一个共同的活动，我们通常只需要与该活动最相关的词语或文档）。私有计算允许我们确定最终结果——例如，与活动相关的一组文档——而不会泄露任何关于用于进行模式匹配的数据的信息。

私人计算技术由于多种原因而难以使用，其中一个原因是计算成本高昂。然而，我们最新的成果已将计算成本降低了多个数量级，并且允许在许多上下文算法中添加隐私保护，而基本上没有计算开销（可从 http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/ 获取伯克利技术报告 UCB/EECS-2006-12）。这使我们能够计算高级上下文信息，例如谁参与了某项活动以及参与程度（例如，参与度数字在 0 到 1 之间），而无需透露用户实际参与的时间和地点。私人计算提供的隐私保护比匿名化更强大——例如，删除发送者/接收者的电子邮件（匿名化）几乎没有受到保护。私人计算需要一些相当特殊的技术（零知识证明），但我们构建了一个 Java 工具包，可供其他想要尝试的人使用。

情境感知与感知

情境感知和感知实际上是同一枚硬币的两面。情境感知涉及解释其他线索（除了用户输入）来弄清楚用户想要什么。这些线索中的许多将需要机器感知（用户是否在谈论食物，是否有交通噪音，天空是否阴天？）。相反，机器感知是一项艰巨的任务，并且“扩展性”差——当您增加语音词汇量或要匹配的潜在图像数量时，准确性会下降。当您向识别器添加上下文数据时，任务会变得容易得多。在我们关于人脸识别的研究中，我们能够使用可用的手机上下文数据（时间、地点、事件历史记录）来提高从照相手机图像中识别人脸的准确性。事实上，仅使用上下文数据的人脸“识别”（即，在不看图像的情况下预测图像中的人是谁）比使用计算机视觉的最先进人脸识别器更准确。但是，将计算机视觉和上下文结合起来，比单独使用任何一种都效果更好。

我们关于语音界面的工作试图通过向语音识别添加上下文数据来实现类似的增益。我们认为，那里的潜在收益甚至更大。但是，识别器、上下文数据以及构建在其之上的应用程序或服务之间必须有更紧密的耦合。这就引出了情境和感知界面面临的最大挑战：弥合致力于这些技术的学科之间的障碍——具体而言，HCI、语音识别和计算机视觉。当技术或市场发生范式转变时，这是一个常见的故事。虽然有一些小型社区在边界上工作，但在大多数情况下，识别器对于界面开发人员来说是“黑匣子”。相反，从事识别工作的人很少关注上下文或稍后出现的应用程序。我们通过这种方式会取得一些进展，但如果我们想要一场革命，而市场已经为此做好了准备，那么我们需要忘记部落忠诚，共同努力。

本期概述

本期的文章涵盖了感知和情境感知界面的最新技术水平。在语音界面方面，市场上最令人兴奋的部分之一是手机。现在，许多手机都支持语音输入，用于快速拨号或从电话簿中选择姓名。用于听写的大词汇量界面去年已经出现。完整的连续大词汇量识别正在路上。后者尤其为智能手机开辟了全新的应用可能性，并可能在很大程度上打破这些设备的可用性障碍。这项技术的大部分是由 VoiceSignal 开发的。本期我们以对 Jordan Cohen 的采访开始，他最近搬到了 SRI，但之前曾担任 VoiceSignal 的首席技术官。IBM 托马斯·J·沃森研究实验室的 Wendy Kellogg 和我与 Cohen 讨论了手机语音界面的增长、它们的潜力以及仍然存在的挑战。

我们的第二篇文章着眼于基于计算机视觉的界面。James Crowley 是法国 INRIA（法国国家信息与自动化研究所）罗纳-阿尔卑斯大区 GRAVIR（图形、视觉和机器人）实验室的主任，他是该领域的领导者。正如我们已经注意到的，人类行为的高级解释中的一个主要挑战是上下文。Crowley 和他的同事通过开发一个考虑“情境”和“场景”的丰富的上下文模型，正面解决了这个问题。本文从自上而下的角度描述了他们的方法，从表示模型开始，深入到他们的软件架构。

在第三篇文章中，我们着眼于生物实验室中的情境感知。华盛顿大学计算机科学教授 Gaetano Borriello 带领我们了解 Labscape 系统的一些现场测试，该系统旨在成为细胞生物学家的有效但又不引人注目的助手（雷达·奥莱利）。在这种情况下，用户的高级活动是众所周知的（这是一个科学实验）。该系统必须使用来自传感的可用线索（像大多数情境感知系统一样，这个系统中有很多感知）来弄清楚用户在哪里以及需要哪些资源。Borriello 的文章充满了关于如何使这种系统成功的实用建议。

在我们的最后一篇文章中，来自 IBM 托马斯·J·沃森研究实验室的 Jim Christensen 和同事（包括 Wendy Kellogg）采用了使用上下文信息的不同方法。鉴于目前成功的自动情境感知系统很少见，Christensen 等人主张对上下文信息进行人工解释。他们描述了两个体现这种方法的系统：Grapevine，一个调解人际交流以最大限度地减少不适当中断的系统；以及 Rendezvous，一个 VoIP 会议呼叫解决方案，它使用来自公司资源的上下文信息来增强音频会议的用户体验。他们还讨论了一些与情境感知系统中用户隐私相关的有说服力的问题。

JOHN CANNY 是加州大学伯克利分校的 Paul 和 Stacy Jacobs 特聘工程教授。他的研究领域是人机交互，重点是行为建模和隐私。他于 1987 年在麻省理工学院人工智能实验室获得博士学位。他关于机器人运动规划的论文获得了论文奖。他获得了 Packard Foundation Faculty Fellowship 和 Presidential Young Investigator Award。他经过同行评审的出版物涵盖机器人技术、计算几何、物理模拟、计算代数、理论和算法、信息检索、HCI 和 CSCW 以及密码学。他在其中几个领域获得了最佳论文奖。

最初发表于 Queue vol. 4, no. 6—
在数字图书馆中评论本文

更多相关文章

Vinnie Donati - 推动组织可访问性
在本文中，我们将探讨微软如何在整个组织中推动可访问性，并且我们将仔细研究促进包容性文化的基本框架和实践。通过检查诸如意识建立、战略发展、可访问性成熟度建模等方面的因素，我们旨在为开始其可访问性之旅的组织提供指南。我们的想法是分享我们所学到的知识，希望您可以采纳它，对其进行调整以适应您公司的宗旨，并以一种不仅仅是勾选框活动的方式来培养可访问性，而是真正融入您的文化中。

Shahtab Wahid - 设计系统是可访问性交付工具
设计系统是为消费者（设计师和开发人员）构建的基础设施，他们在应用程序上工作。一个成功的系统允许组织中的消费者快速扩展跨应用程序的设计和开发，提高生产力并建立一致性。然而，许多消费者并没有准备好为可访问性而构建。组织能否使应用程序的可访问性支持构建变得可扩展、高效和一致？本文探讨了设计系统如何成为支持可访问性的重要工具。

Juanami Spencer - 移动应用程序的可访问性考虑因素
在创建移动应用程序时，考虑可访问性至关重要，以确保它们对于尽可能广泛的受众来说是可用且愉快的。与桌面体验相比，移动可访问性有其独特的考虑因素，但它为那些在日常活动中依赖移动设备的用户提供了巨大的价值。通过牢记这些考虑因素，移动产品开发团队可以更好地支持和改善所有用户的生活。本文探讨了移动应用程序的一些关键可访问性考虑因素，并重点介绍了 Bloomberg Connects 应用程序如何在产品和流程中支持可访问性的几种方式。

Chris Fleizach, Jeffrey P. Bigham - 系统级可访问性
本文通过我们使用 VoiceOver 屏幕阅读器使 iPhone 能够以非视觉方式使用的工作来说明系统级可访问性。我们为非视觉使用重新构想了触摸屏输入，引入了适用于控制屏幕阅读器的新手势，并且对于输出，我们添加了对合成语音和可刷新的盲文显示器（输出触觉盲文字符的硬件设备）的支持。我们添加了新的可访问性 API，应用程序可以采用这些 API，并且我们的用户界面框架默认包含它们。最后，我们添加了一个可访问性服务，以桥接这些新的输入和输出与应用程序之间的连接。