与乔丹·科恩的对话 -

访谈

2006年7月27日
第4卷，第6期

与乔丹·科恩的对话

畅谈语音技术

乔丹·科恩称自己为“有点像工程师，又有点像语言学家。”这种多元化的背景为他长期从事语音技术工作奠定了基础，包括在政府机构工作了近 30 年，期间还曾在 IBM 的语音识别部门工作过一段时间。直到最近，他还是 VoiceSignal 的首席技术官，这是一家为移动设备开发基于语音的用户界面的公司。VoiceSignal 在手机行业占有重要地位，其软件在 6000 万到 1 亿部手机上运行。科恩刚刚加入 SRI International 担任高级科学家。他将从事政府合同以及其他风险投资项目。

最近，我们让科恩停下来，分享他对语音技术及其在家庭、汽车、医生办公室，尤其是手机方面的潜力的看法。什么将使其最终在市场上被接受？

科恩与该领域的另一位专家，加州大学伯克利分校计算机科学教授约翰·坎尼一起探讨了这个问题。他在攻读本科学位时开始从事语音和信号处理工作，然后在 20 世纪 90 年代末涉足计算机视觉和机器人技术领域。他逐渐转向 HCI（人机交互），最近对移动设备产生了兴趣。这促使他启动了几个关于语音的项目，他的团队已将语音确定为移动设备上 HCI 的关键技术之一。他的工作还包括情境感知、计算机辅助教育、协作工作以及发展中地区技术方面的项目。

参与讨论的还有温迪·凯洛格，她的背景是认知心理学。她已经在 IBM 托马斯·J·沃森研究实验室的 HCI 和计算机支持的协同工作领域工作了约 20 年。她在那里管理着社交计算组，该组正在研究在在线空间中表示人员及其活动的新方法，以促进远程协作。凯洛格也是 Queue 编辑委员会的成员。

约翰·坎尼 至少从一些报告来看，语音识别似乎进展顺利——当然，VoiceSignal 一直做得非常好。您能跟我们谈谈 VoiceSignal 的崛起吗？

乔丹·科恩 大约五年前我加入 VoiceSignal 时，他们采取了一种非常有趣的方式。我们环顾四周，问自己市场在哪里，而不是问技术能做什么。因此，新兴的手机市场——别忘了那是 2000 年——实际上看起来像一个真正的市场。这是一个界面普遍不足的地方，而且它变得越来越小，但人们的手并没有变小。而且看起来每年将有大约十亿部新手机。因此，事实证明，十亿乘以任何金额的钱实际上就是钱。

我们拥有了创建一个真正市场的所有要素，然后我们着手构建一种真正适合市场的技术。技术倾向是构建语音识别，使其适合手机中可用的处理器类型，不包括 DSP（数字信号处理器）。

使业务成功的另一个重要因素是找到一支销售团队，他们实际上会脚踏实地，去寻找客户。我们决定以大型电信公司为目标，事实证明这意味着以手机制造商为目标，这是一条漫长而曲折的道路。我们需要找到能够挖掘出这些客户的人，弄清楚他们是如何运作的，他们的经济状况如何，以及这些公司内部的推动者是谁。这最终成就了一家相当成功的公司，该公司现在正期待着手机上除语音拨号和转录之外的新应用。

VoiceSignal 的员工已经推出了一款具有数万词汇量的离散识别器，上市时间超过一年，并且刚刚宣布推出一款具有类似大词汇量的连续识别器。如果您所处的环境词汇量要大得多，那么您真正需要的是基于服务器的识别，并且您可能希望使用大量的自然语言，但是自然语言处理还没有达到您可以在这些非常小的计算机平台上支持它的程度。

因此，您希望在本地识别或本地设备与远程服务器之间进行某种握手，我认为这是一个刚刚开始受到关注的领域。这是一个问题多于解决方案的领域，但这显然是我们迟早必须处理的事情，以便为当今基于电信的系统提供接口。

桌面听写，除了那些难以使用键盘的人群之外，是一个有趣的应用，但它不是一个市场。它不是市场的原因是，现有的键盘、鼠标和屏幕界面非常好，以至于与之竞争真是一项艰巨的任务。我认为在很长一段时间内都不会有人做到这一点。

坎尼我同意。让我们转向其他新兴市场，稍微跳出手机，但又不要太远。例如，对于大词汇量任务，家庭是一个有趣的市场，汽车也是如此。另一个是医疗市场，医生随身携带小型录音设备用于医生医嘱录入。您是否看到在未来，如果不是完全嵌入手机的技术，那么嵌入式语音识别或基于对话的系统在这些市场中发挥作用？

科恩在整个图景中，有一个有趣的变数，虽然在医疗市场中不多，但在家庭和汽车中肯定很多。那个变数是手机正变得更加互联，并且正在成为 IP 平台。我们现在看到支持 Wi-Fi 和更复杂协议的手机。

汽车对于语音识别来说具有非常具有挑战性的声学环境。我们开始看到像戴姆勒这样的制造商在汽车中安装多个麦克风，以便他们可以进行一些阵列处理。

产品周期非常长——五到七年——因此最终上市的产品中安装的是五年前的语音识别器。这似乎是一个问题。我认为这最终会阻碍汽车远程信息处理方面的重大进步。

您要么需要有一个可更换的设备——您可以插入的东西——要么通过手机在您的汽车中进行语音识别，而手机具有上周的语音识别器。这里有趣的故事是蓝牙。随着越来越多的汽车配备蓝牙，蓝牙与手机的连接基本上是自动的。

这里的黑马不是通用远程信息处理公司，而是手机，它是语音识别的标准中介。总是有基于服务器的东西，但这只是网络另一端的东西。鉴于网络正在工作，您可以使用汽车收音机或手机收音机或任何您喜欢的方式连接到该网络。网络始终存在连接问题。欧洲和亚洲的连接性比美国好得多。

在家庭中，情况也大致相同。据我所知，没有人完全掌握家庭自动化。越来越多的设备具有 IP 感知能力。它们具有连接性——通常是宽带或电话连接——但同样，您的手机也以相同的方式具有 IP 感知能力。所以我认为这是这里的黑马。您可能会开始在远程设备中看到语音。

家庭中始终存在声学问题，因此您需要靠近设备说话。如果您有一个进行语音识别的遥控器，您不能让它一直开着，因为电池会耗尽，而且您不希望它插电，因为这很麻烦。

我认为这是这些支持语音识别的设备中的秘密问题。要么您需要进行非常复杂的房间声学处理来解决语音识别问题，要么您最终会使用口袋里的手机，而所有之前的管理问题都已解决。

坎尼人们现在经常戴着耳机走来走去，这为语音识别提供了非常好的位置，而且他们很乐意这样做，无论是使用蓝牙耳机还是插入手机的有线耳机，因此它很容易成为通用接口设备。我同意您的看法，至少在近期内，手机是该领域非常好的中介。

科恩我们解决了许多与语音技术无关的技术问题。它们与使移动设备可靠工作、电池续航时间长以及麦克风的放置位置合理以获得良好的音频有关。手机具有良好的音频系统，而且价格便宜，因为规模经济确实有效。

坎尼大约在 2000 年左右，全球语音技术蓬勃发展。我认为市场在很短的时间内大致翻了一番，然后又萎缩回落。希望我们能再次看到一些增长，但是为了避免再次出现衰退周期，人们应该担心什么？

科恩那次衰退周期非常有趣。部分问题是人们专注于不是市场的市场——即桌面听写。

IBM 还在 20 世纪 90 年代末采取了积极行动，以削减市场上所有其他公司的价格，并且它在使在该市场（当然是听写市场）中赚钱变得不可能方面做得相当出色。

在一个难以控制的环境中，情况一直很艰难，我不确定我们会再次看到同样的事情，但是在这个市场中需要有一点容忍度，因为它总是会很脆弱。

嵌入式系统的进入壁垒相当大，但基于消费者的设备的进入壁垒却不大。因此，您确实需要担心这一点。

坎尼正如您在讨论开始时所说，诀窍是在您投入技术之前先弄清楚市场是什么。

科恩是的，绝对是这样。

坎尼仍在手机的背景下，您认为语音可以提供哪些新服务或现有服务的改进？

科恩与这些设备上的按钮和非常小的键盘相比，这是一个相当不错的界面。这是一个很好的通用界面。真正令人兴奋的是即将出现的新服务，其中包括基于位置的服务，用于推送或拉取类型的信息。我们正在看到社交网络服务，这些服务在年轻一代中非常受欢迎。

杀手级应用可能最终会成为某种与搜索的接口，这似乎是当今世界非常热门的话题；特别是对于移动搜索，语音是一个非常合理的界面，至少对于输入端而言是这样。输出端提出了一个完全不同的问题。

但是处理搜索意味着您需要支持非常大的词汇量，以便人们可以问他们想问的任何问题。您确实需要了解如何做到这一点，但是有一个隐藏的有趣且复杂因素：语言。我们现在所处的世界大约有 6000 种不同的语言，但是 98% 的人口只说其中的 40 或 50 种语言。然而，话虽如此，我必须说，任何想要真正成功的人都必须覆盖该语言基础，这是一项艰巨的任务。

坎尼您能谈谈您认为语音技术的发展方向吗？例如，VoiceSignal 有一个愿景，并且一直在阐明更自然的社交界面类型。您认为未来几年将会有什么？

科恩这有点难以预测，但有两件事正在发生。一是像 VoiceSignal 这样的公司正在努力关注用户体验，事实证明这是一个关键驱动因素。我们必须制造出人们使用起来自然的东西。这本质上是一个人机工程学问题。

另一件正在发生的事情是，可用的计算和内存量正在爆炸式增长。新的 ARM11 处理器非常强大——基本上相当于您的 PC——并且我们开始看到非常小、非常高容量的内存，因此很容易设想一部 10 GB 的手机。

因此，这不会成为技术障碍。技术障碍将是我们实施事物的智能程度。

一个问题是，什么将驱动该技术取得明智的突破？我参与了 DARPA 的 GALE（全球自主语言开发）计划，该计划旨在推动翻译和他们所谓的提炼，即理解多语言环境中的数据。一旦您拥有多语言环境，您就不得不处理这些问题——关于它们的含义以及它们之间的关系。

可能要等到该技术成熟后我们才会取得成功，我认为政府方面有一些真正的驱动因素将资金投入到该领域。

坎尼对于希望在移动平台或其他平台上使用语音的开发人员来说，他们应该关注哪些工具或平台？

科恩有一系列平台。许多开放式计算都是移动的，例如 PDA。智能手机在市场中所占份额越来越大，这些智能手机具有开放式操作系统。美国支持两个基本的开发人员平台。对于 CDMA 手机，有 BREW（无线二进制运行时环境）。BREW 是一个对开发人员友好的平台，人们可以在其中进行开发，然后高通将成为他们的银行并实际提供它。另一个平台是 Java；几乎每个手机平台今天都以某种方式支持 Java。

您是否可以在这些平台中的任何一个平台上编写语音识别引擎还不是很清楚。我猜这在远程是有可能的。我不确定是否有足够的计算能力来做到这一点，但是如果有一个语音识别引擎，您当然可以查找与 BREW 和 Java 接口的 API，让您可以访问这些东西。我认为这就是行动的方向。

坎尼从开发人员的角度来看，商业产品怎么样？您认为那里会有机会吗？

科恩机会将在于服务。有一个活跃的开发人员社区。当然，诺基亚正在推广其 Series 60 和 Series 80 设备，这些设备是开放的，而微软也越来越多地取得进展，在 PDA、手机和智能手机上提供 Windows 访问权限。Symbian 也有一个开放的、略有不同的平台。因此，在这个领域开发东西有很多很多机会。

这里的黑马可能是游戏产业，因为我们开始看到认真的努力，使语音成为某些游戏的重要组成部分。那个设计问题，游戏的设计，非常有趣，但是我们开始看到一些解决方案的迹象，这实际上可能会推动技术发展。

坎尼对于想要在手机上实现语音识别的开发人员来说，有哪些挑战？他们应该担心什么？

科恩可用性确实是关键问题。在许多类型的应用程序中，都有多种输入模式。我们在手机上肯定看到了这一点。对于开发人员来说，诀窍是找到一个语音对客户具有一定有限价值的地方，其中价值超过了他们从没有语音的应用程序中获得的价值。

这很容易被忽视。您可以自欺欺人地认为您拥有了不起的东西，但是您确实需要与客户交谈并进行测试，以确保您所做的事情确实为他们增加了价值。如果您不这样做，那么您就没有业务。

温迪·凯洛格 我一直对语音识别持怀疑态度，可能是因为我从小就看《星际迷航》，在其中语音识别完美运行。但事实是否并非如此，连续语音识别的最新技术仍然远未达到人们通常想到的那种流畅的理想状态？

科恩这是真的，我必须说，像 VoiceSignal 这样的公司并没有解决任何问题。它并没有推动基础技术；它只是在做非常聪明的工程。

凯洛格 另一方面，驱动人们使用该技术的特定服务将有助于推动越来越好的识别，当然还有将该技术应用于手机的能力。

我认为语音识别的多语言用途——听起来完全不可能，我们甚至连一种语言都做不好——肯定非常诱人。即使是网络上的简单翻译也非常有用。

科恩它们确实很诱人，并且那里有一个真正的市场。甚至对于旅行的人来说，也存在商业市场。

标准的语音到语音翻译系统是基于短语的，因此您要么必须知道或猜测一种语言中的短语，系统会将它翻译成另一种语言。这有点像黑客行为，但它实际上为您提供了一些能力。现代系统实际上尝试进行翻译，并且它们在大量计算的支持下取得了适度的成功。我们暂时不会看到这些。

凯洛格 在可预见的未来，翻译会是基于服务器的吗？

科恩如果您今天想这样做，答案是肯定的。如果像 VoiceSignal 这样的公司要尝试一下，它可能会在模仿最新技术方面做得相当不错。然而，话虽如此，我认为最新技术并不是很好，所以那里绝对存在问题。

凯洛格 如果有一个巴别鱼应用程序，借鉴《银河系漫游指南》，那该有多酷啊？这对于道格拉斯·亚当斯创作他的故事来说是绝对必要的，但是如果能够戴上手机耳机，在一个您不会说这种语言的国家四处走动，并且能够理解周围所说的一些内容，那不是很好吗？

科恩第一个做到这一点的人将会赚很多钱。

凯洛格 现在有哪些更酷的语音识别游戏？

科恩我见过一些例子，但我对它们都不太喜欢。在这方面最出名的是一家名为 Fonix 的公司，该公司有一个与 Xbox 一起提供的识别工具包。已经有一些 Xbox 开发人员开发了游戏，在这些游戏中，您被允许说的语音仅限于三四个或五个短语，并且它显示在屏幕上，因此您确切地知道有哪些可能性。他们告诉我游戏体验非常棒。

坎尼我参与语音识别的一个原因是，我遇到了很多人告诉我他们需要语音识别，特别是在医疗界。从他们的角度来看，医疗从业人员并没有真正认真对待桌面甚至笔记本电脑或移动计算。他们使用语音进行大量日常沟通、笔记等。他们已经很快地采用了语音技术，如果它更小更方便，他们肯定会更快地采用它。

像温迪一样，我一直持怀疑态度，但与此同时，现在很多人都有配备语音拨号或语音查找功能的新手机，他们使用它，并且喜欢它。他们不知道语音处理的历史。

科恩在医疗领域使用语音方面存在一个有趣的困境，这与医生有关。您可以开发医生直接使用的语音应用程序。不幸的是，这也使他们成为编辑。他们必须说从语音输入中获得的结果是否正确。

现在有一些公司在医生背后进行语音识别——例如，支持转录服务。这看起来是一项非常棒的业务。

这是该技术的另一个应用：一家名为 HearingRoom.com 的公司为华盛顿特区的听证会提供近似的文字记录。一直都有很多听证会发生，并且不可能获得有关它们的信息，因为文字记录会在几个月后发布。

HearingRoom 安排在所有听证室都安装麦克风，并雇用了一组“重听录员”，他们会将他们听到的内容重新说入语音识别设备，从而制作出约 95% 的文字记录，并在大约 12 分钟内完成这些会议的周转。它的市场是华盛顿特区的法律界。

坎尼对于对语音技术感兴趣或正在考虑语音技术的人们，您有什么一般性建议？我认为社区中的很多人此时对此持怀疑态度，或者可能非常好奇，因为他们显然已经看到了嵌入式市场、手机市场的增长。您对他们在界面语音开发方面有什么建议？

科恩关键问题是找到一个语音可以增加价值并且具有真实市场的应用程序——也就是说，人们愿意为此花钱。这将绝对驱动一切，如果您没有它，那么您只是在浪费时间。语音变得越来越好，所以我认为未来会一片光明。我们开始看到多模式界面，我必须说 VoiceSignal 的部分能力是在手机中进行语音合成。它不仅仅是语音识别。它确实以明智的方式处理界面——文本和语音以及输出——并使所有这些以用户最少受到干扰且最有帮助的方式工作。

坎尼这提出了一个有趣的问题。《语音技术》杂志上的一篇文章将语音界面设计与视觉界面设计进行了比较，从某种意义上说，无论您做什么都会创造用户体验、印象，就像网站的视觉设计一样。

没有中性界面。没有中性网站。如果您使用简单的罗马字体 ASCII 文本，您会给网站创造某种印象——可能非常简陋、极简主义。语音也是如此。如果您与单调的计算机合成语音互动，它不是中性的。除了对话设计的内容之外，它还会创造用户体验。语音设计，整个体验的设计，似乎是一个相当复杂的过程。

科恩在十年前的 DARPA 项目中，人们发现非技术人员对系统（例如，航空公司预订系统）的印象在很大程度上取决于所使用的合成质量，而与语音识别的质量关系不大。

语音合成的质量将等同于语音识别的质量，这将有助于人们接受这些应用程序。

凯洛格 您谈到了文字记录的用处，因为语音具有不方便的特性。不容易快速扫描。您可以在回放时压缩它，但这很困难。您可以用文本做一些事情，而这些事情显然是您无法用任何类型的语音做的。因此，在输入端，人们试图消化语音。

但也有输出端。我们一直在我们的实验室中构建一个系统，该系统使用 IVR（交互式语音应答），它从合成语音、录音语音和信息片段构建事物。这就是您如何使语音更具可计算性（如果您愿意的话）或可编程性的方式。我想知道您对此有何看法，或者未来会走向何方？似乎随着语音在各种方面变得更容易获得，人们将希望破解语音。人们是否正在考虑这一点或构建工具来简化语音的混搭？

科恩我们看到了一系列工具包，例如微软推出的用于语音的工具包，我的感觉是它们非常复杂，并且它们让您可以访问绝对所有东西——而您并不想要这些。我认为您将来会看到的是简单的工具包，它们只允许您作为开发人员所需的访问量。

语音合成和录音语音存在质量问题。该质量的隐藏部分之一是，随着环境变得嘈杂，您需要解密语音合成的认知负荷会急剧增加，而对于质量差的语音合成，认知负荷会爆炸式增长。您需要在任何嘈杂的环境中拥有可用的界面之前修复质量。

坎尼您是否认为 VoiceXML 是编写语音界面的合理中间标准？

科恩这是一种控制负载的方法。它在 IVR 领域似乎可以正常工作。我不确定我想用 VoiceXML 编写大量东西。它对系统在您身后正在做什么做出了很多假设。它假设您在 IVR 系统上。它假设您正在通过电话交谈，这是唯一的界面，因此您没有其他类型的信息。

这是一个非常有限的界面。它为社区提供了很好的服务，因为它确实提供了一个标准，但我不认为它会持续下去。

这将是一个有趣的时期。我认为政府将不再支持语音作为一项工程技术。将会有对应用的支持。我正在寻找有人找出如何将语音变成一项科学事业，我认为当我们这样做时，我们将真正学到更多关于语音和语言的知识。在很长一段时间内，我们将成为一个应用领域。

凯洛格 这会非常鼓舞人心，当然对消费者和用户来说也很有趣。

科恩哦，是的。即使是不完善的技术，如果您做对了事情，也可以让您赚钱。

最初发表于 Queue vol. 4, no. 6—
在数字图书馆中评论本文

更多相关文章

Vinnie Donati - 推动组织可访问性
在本文中，我们将探讨微软如何在整个组织中推动可访问性，我们将仔细研究促进包容性文化的基本框架和实践。通过检查诸如意识建设、战略发展、可访问性成熟度建模等方面，我们的目标是为开始可访问性之旅的组织提供指南。我们的想法是分享我们所学到的知识，希望您能将其用于调整以适应您公司的宗旨，并以一种不仅仅是勾选框活动而是真正融入您的文化的方式来培养可访问性。

Shahtab Wahid - 设计系统是可访问性交付工具
设计系统是为消费者（在应用程序上工作的设计师和开发人员）构建的基础设施。一个成功的设计系统可以让组织中的消费者快速扩展跨应用程序的设计和开发，提高生产力，并建立一致性。然而，许多消费者没有准备好为可访问性构建。组织是否可以使应用程序的可访问性支持构建具有可扩展性、高效性和一致性？本文探讨了设计系统如何成为支持可访问性的重要工具。

Juanami Spencer - 移动应用程序的可访问性考虑因素
在创建移动应用程序时，考虑可访问性至关重要，以确保尽可能广泛的受众可以使用和享受它们。与桌面体验相比，移动可访问性具有独特的考虑因素，但它为那些在日常活动中依赖移动设备的用户提供了巨大的价值。通过牢记这些考虑因素，移动产品开发团队可以更好地支持和改善所有用户的生活。本文探讨了移动应用程序的一些关键可访问性考虑因素，并重点介绍了 Bloomberg Connects 应用程序如何在产品和流程中支持可访问性。

Chris Fleizach, Jeffrey P. Bigham - 系统级可访问性
本文通过我们使 iPhone 能够使用 VoiceOver 屏幕阅读器进行非可视化工作的工作来说明系统级可访问性。我们为非可视化使用重新构想了触摸屏输入，引入了适用于屏幕阅读器控制的新手势，并且对于输出，我们添加了对合成语音和可刷新盲文显示器（输出触觉盲文字符的硬件设备）的支持。我们添加了新的可访问性 API，应用程序可以采用这些 API，并使我们的用户界面框架默认包含它们。最后，我们添加了一个可访问性服务，以桥接这些新的输入和输出与应用程序之间的连接。