听我说:鸿运国际网址了解我们的发言方式

作者:福恒

<p>在Apple最近举行的全球开发者大会上,其中一个帐篷项目是其个人助理应用程序Siri在其最新的移动操作系统iOS 9现在的更新中包含了用于智能语音识别的附加功能,而不是要求Siri “让我想起明天凯文的生日”,你可以依赖上下文,只要让Siri“提醒我这件事”,同时观看生日那天的Facebook活动它会知道你的意思这样的技术也存在于Google设备中现在很少 - 感谢OK Google - 让我们更接近语境识别语音识别但是它如何运作</p><p>为什么上下文如此重要</p><p>它如何与语音识别相结合</p><p>要回答这个问题,值得回顾一下语音识别的工作原理以及它与另一个重要领域的关系,自然语言处理语音识别已经在公众意识中长时间而不是点击键盘,不是很高兴用自然语言与计算机交谈,让它理解你说的一切吗</p><p>自从柯克船长在20世纪60年代的原版“星际迷航”系列中与USS Enterprise上的计算机对话(以及Scotty未能尝试在后来的原版系列电影中与20世纪的计算机交谈)时,我们梦想着这是怎么回事可能会工作即使是最近拍摄的电影,人们仍然会想到更好的语音识别功能1992年以技术为中心的Sneakers让罗伯特·雷德福(Robert Redford)痛苦地收集了行政人员声音的片段,然后用录音机将其播放到计算机中以获得语音访问权限系统但科幻小说描述的简单性掩盖了语音识别技术过程的复杂性在计算机甚至能够理解你的意思之前,它需要能够理解你所说的内容这包括一个复杂的过程,包括音频采样,特征提取,然后实际语音识别,以识别个别声音并将其转换为文本研究人员多年来一直在研究这项技术他们开发了一些技术,以类似于人耳的方式提取特征,并将它们识别为人类作为其语音的一部分所做的音素和声音这涉及使用人工神经网络,隐藏的马尔可夫人工智能的广泛领域中的模型和其他想法通过这些模型,语音识别率提高了今年谷歌报告的误差率不到8%但即使有了这些进步,听觉识别只有一半战斗一旦计算机经历了这个过程,它只有复制你所说的文字但是你可以说任何事情下一步是自然语言处理一旦机器将你说的转换为文本,它就必须明白你实际说过的话这个过程被称为“自然语言处理”这可能比语音识别过程更困难,导致人类语言充满语境和语义,使自然语言识别过程变得困难任何使用过早期语音识别系统的人都可以证明这是多么困难早期系统的词汇量非常有限,你需要说命令以恰当的方式确保计算机理解它们这不仅适用于语音识别系统,甚至是文本输入系统,其中单词的顺序和某些单词的包含对系统的方式有很大的不同处理命令这是因为早期语言处理系统使用硬规则和决策树来解释命令,因此任何偏离这些命令都会引起问题然而,较新的系统使用类似于语音识别中使用的隐马尔可夫模型的机器学习算法建立词汇这些系统仍需要教授,但他们能够根据个人的权重做出更软的决定使用的习惯词这允许更灵活的查询,其中使用的语言可以改变,但查询的内容可以保持不变这就是为什么可以要求Siri“安排一个日历约会上午9点拿起我的干 - 清洁“或”进入我日历上午9点的干洗,并获得相同的结果尽管取得了这些进步,但这个空间仍然存在挑战 在语音识别领域,口音和发音仍然会导致问题由于系统的工作方式,音素的不同发音会导致系统无法识别你所说的内容当一个单词中的音素出现时尤其如此(对于非本地人来说与英国“莱斯特”或“格拉斯哥”等城市没有任何关系,即使像“墨尔本”这样的澳大利亚城市似乎也会绊倒一些美国人而对澳大利亚人来说,墨尔本是非常明显的,在美国使用音素的方式不同意味着他们经常发错(对于狭隘的耳朵)任何听过GPS系统的人都错误地把伊普斯维奇误认为是“eyp-swich”知道这也是双向的唯一途径围绕这个是以不同的方式训练系统发音但是随着重音的变化(甚至是重音内的发音),这可能是一个相当大而复杂的过程在语言过程中另一方面,问题主要是上下文中的一个例子</p><p>开篇中给出的例子提供了语境处理中的最新技术示例但是你需要做的就是注意几分钟的对话才能意识到我们有多少改变我们说话的方式给机器额外的上下文例如,你多久问一个人:你收到我的电子邮件了吗</p><p>但你的意思是:你收到我的电子邮件了吗</p><p>如果你这样做了,请你阅读它吗</p><p>能否请你回复这个问题</p><p>当你想与机器进行对话,询问初步问题和后续问题时,事情变得更加复杂,例如“马丁的号码是什么</p><p>”,然后是“给他打电话”或“给他发短信”机器在理解背景方面正在改进,但它们还有很长的路要走!因此,我们已经在许多不同的领域取得了很大进展,但是在口音识别,语言含义和对话中的背景方面仍然存在挑战</p><p>这意味着我们可能还需要一段时间才能拥有这些计算机</p><p>星际迷航解释我们所说的一切但放心我们正在慢慢接近,微软最近在自动翻译方面的进步表明,如果我们做对了,结果可能非常酷谷歌最近发布了使用图像组合的技术语音识别,自然语言处理和智能手机上的摄像头可以自动将标志和简短的对话从一种语言转换为另一种语言它甚至会尝试匹配字体,使标志看起来一样,但是用英语!因此,您不再需要思考用意大利语编写的菜单,或者想知道如何从不会说英语的服务员那里订购,Google已经涵盖了不是USS Enterprise,但肯定更接近!....

上一篇 : Dale Nimmo
下一篇 : 米歇尔格拉坦