综合百科

当前位置/ 首页/ 综合大全/综合百科/ 正文

Pixel手机上的Gboard获得快速离线语音识别

导读 2021-11-13 11:33:49甚至在 Google Assistant 出现之前,Google 就已经在为各种功能(包括语音搜索)进行语音和语音识别。然而,像谷歌...

2021-11-13 11:33:49

甚至在 Google Assistant 出现之前,Google 就已经在为各种功能(包括语音搜索)进行语音和语音识别。然而,像谷歌的大多数人工智能功能一样,这些功能依赖于活跃的,更不用说良好的互联网连接。当您尝试在线搜索某些内容或下订单时,这没问题,而在听写或翻译单词时则不然。幸运的是,谷歌的 AI 团队已经为 Gboard 键盘提出了一种解决方案,即使您处于离线状态,它也能让您口述文本。

语音识别系统实际上由多个部分组成,每个部分都是管道的关键部分。有一个模型将输入音频映射到称为音素的不同声音单元,一个模型将音素连接成单词,另一个模型尝试猜测短语。鉴于这些模型的复杂性,它们传统上存储在远程服务器上,输入音频记录被发送到那里进行处理。

虽然这种方法通常会给出准确的结果,但延迟几乎扼杀了实时使用现场翻译和听写等内容的希望。幸运的是,已经开发了一种新型的神经网络模型,谷歌将其称为循环神经网络转换器或 RNN-T。简而言之,RNN-T 不是等待发送整个输入然后对其进行处理,而是在输入样本到来时对其进行处理并流式传输输出符号。

在 Gboard 的情况下,这些输出符号基本上是英文字母的字符。这就是为什么新的 Gboard 语音识别功能似乎一次一个字符地吐出单词,这对人类来说看起来更自然。

更重要的是,RNN-T 模型足够小,可以放入手机中。没有延迟可言,因为处理和抓取模型都发生在设备上,不需要互联网连接。这种全新的全神经设备上 Gboard 语音识别器将在所有 Google Pixel 手机上提供,但仅提供美式英语。研究人员希望在不久的将来可以将相同的技术应用于更多语言。

免责声明:本文由用户上传,如有侵权请联系删除!