未来十年,AI 语音识别将朝着这五个方向发展

1个月前 (11-20 15:15)阅读1回复0
玛丽儿
玛丽儿
  • 管理员
  • 注册排名2
  • 经验值102090
  • 级别管理员
  • 主题20418
  • 回复0
楼主

在过往的两年中,主动语音识别(Automatic Speech Recognition, ASR)在商用上获得了重要的开展,此中一个权衡目标就是:

多个完全基于神经收集的企业级 ASR 模子胜利上市,如 Alexa、Rev、AssemblyAI、ASAPP等。

2016年,微软研究院颁发了一篇文章,公布他们的模子在已有25年汗青的“Switchboard”数据集上,到达了人类程度(通过单词错误率来权衡)。

ASR 的准确性仍在不竭进步,在更多的数据集和用例中逐步到达人类程度。

图源:Awni Hannun 的博文 “Speech Recognition is not Solved”

跟着 ASR 手艺的识别准确度大幅提拔,同时利用场景越来越丰富,我们相信:如今还不是 ASR 商用的巅峰,该范畴的研究与市场利用还有待发掘。

我们估量将来十年 AI 语音的相关研究和贸易系统将重点霸占以下五个范畴 :

1 多语言ASR模子

“在将来十年,我们将在消费情况中摆设实正的多语言模子,使开发人员可以构建任何人都能理解肆意语言的利用法式,从而实正向全世界释放语音识此外力量。”

图源:Alexis Conneau 等人在 2020 年颁发的“Unsupervised cross-lingual representation learning for speech recognition”论文

展开全文

现在的商用 ASR 模子次要利用英语数据集停止操练,因而对英语输进具有更高的准确性。因为数据可用性和市场需求,学术界和工业界对英语的持久存眷度更高。法语、西班牙语、葡萄牙语和德语等贸易时髦语言的识别准确度固然也较为合理,但显然存在一个操练数据有限且ASR输出量量相对较低的语言长尾。

此外,大大都贸易系统都是基于单一语言,那无法适用于许多社会特有的多语言场景。多语言能够摘用背靠背语言的形式,例如双语国度的媒体节目。亚马逊比来推出了一款集成语言识别(LID)和ASR的产物,在处置那一问题上获得了长足朝上进步。比拟之下,跨语言(也称为语码转换)是小我利用的一种语言系统,该系统能够将两种语言的单词和语法连系在统一个句子中。那是一个学术界陆续获得有趣停顿的范畴。

正如天然语言处置范畴摘用多语言办法一样,我们将会看到ASR在将来十年也会效仿。跟着我们进修若何操纵新兴的端到端手艺,我们将会操练能够在多种语言之间停止迁徙进修的大规模多语言模子。Meta的XLS-R就是一个很好的例子:在一个演示中,体验者能够说21种语言中的任何一种,而不需要指定某种语言,模子最末城市翻译成英语。通过理解和利用语言之间的类似性,那些更智能的ASR系统将为低资本语言和混合语言用例供给高量量的ASR可用性,并将实现贸易级此外利用。

2 丰富的原则化输出对象

“在将来十年,我们相信贸易 ASR 系统将输出更丰富的转录对象,此中包罗的内容将不行简单的单词。此外,我们估量,那种更丰富的输出将得到W3C等原则组织的承认,以便所有API都将返回类似构造的输出。那将进一步释放世界上每小我的语音利用潜力。”

虽然国度原则手艺研究院(NIST)在摸索“丰富转录”方面有着悠久传统,但在将其纳进ASR输出的原则化和可扩展格局方面仍是浅尝辄行。丰富转录的概念最后涉及大写、标点和日志化,但在某种水平上扩展到说话人角色和一系列非语言性言语事务。预期的立异包罗转录来自差别说话者、差别情感和其他副语言特征的堆叠语音,以及一系列非语言以至非人类的语音场景和事务,还能够转录基于文本或语言多样性的信息。Tanaka等人描画了一个用户可能期看在差别丰富水平的转录选项中停止抉择的场景,显然,我们揣测的附加信息的数量和性量是可指定的,那取决于下流利用。

传统的ASR系统可以在识别白话单词的过程中生成多个假设的网格,那些已被证明在人工辅助转录、白话对话系统和信息检索中大有裨益。在丰富的输出格局中包罗n-best信息将鼓舞更多用户利用ASR系统,从而改进用户体验。固然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的原则,但CallMiner的开放语音转录原则(OVTS)朝那个标的目的迈出了坚实的一步,使企业易于摸索和抉择多个ASR赐与商。

我们揣测,在将来,ASR系统将以原则格局产生更丰富的输出,从而撑持更强大的下流利用法式。例如,ASR系统可能会输出全数可能网格,而且利用法式能够在编纂转录内容时利用那些附加数据停止智能主动转录。类似地,包罗附加元数据(如检测到的区域方言、口音、情况噪声或情感)的ASR转录能够实现更强大的搜刮利用。

3 面向所有人的大规模 ASR

“在那十年中,大规模的 ASR(即私有化、可承担、可靠和快速)将成为每小我日常生活的一部门。那些系统将可以搜刮视频,索引我们参与的所有媒体内容,并使世界各地的听力受损消费者可以拜候每个视频。ASR将是对每一个音频和视频都实现可拜候和可操做的关键。”

我们可能都在大量利用音视频软件:播客、社交媒体流、在线视频、实时群聊、Zoom会议等等。然而相关的内容现实上很少被转录。现在,内容转录已经成为ASR API的更大市场之一,并将在将来十年呈指数级增长,特殊是考虑到它们准确性和经济性。话虽如斯,ASR转录目前仅用于特定利用法式(播送视频、某些会议和播客等)。因而,许多人无法拜候此媒体内容,而且在播送或活动完毕后很难找到相关信息。

在将来,那种情状将会改动。正如Matt Thompson在2010年揣测的那样,在某种水平上,ASR价格廉价并被普遍普及,以致于我们将体验到他所谓的“演讲性”。我们估量,将来几乎所有音频和视频内容都将被转录,而且可立即拜候、可存储、可大规模搜刮。但ASR的开展不会到此停滞,我们还期看那些内容具有可操做性。我们期看消费或参与的每个音视频会供给额外的上下文,例如从播客或会议中主动生成的观点,或视频中关键时刻的主动总结等等,我们期看NLP系统能够将上述处置日常化。

4 人机协同

“到本世纪末,我们将拥有不竭开展的ASR系统,它就像一个活的有机体,在人类的搀扶帮助或自我监视下不竭进修。那些系统将从现实世界中的差别渠道进修, 以实时而非异步的体例理解新单词和语言变体,自我调试并主动监控差别的用法。”

跟着ASR成为支流并涵盖越来越多的用例,人机协同将发扬关键感化。ASR模子的操练很好地表现了那一点。现在,开源数据集和预操练模子降低了ASR赐与商的准进门槛。然而,操练过程仍然相当简单:搜集数据、正文数据、操练模子、评估成果、改进模子。但那是一个迟缓的过程,而且在许多情状下,因为调整困难或数据不敷而随便出错。Garnerin等人看察到,元数据缺失和跨语料库表达的纷歧致性使得在ASR性能方面难以包管同等的准确性,那也是Reid和Walker在开发元数据原则时试图处理的问题。

在将来,人类将通过智妙手段高效地监视ASR操练,在加速机器进修方面发扬日益重要的感化。人在回路办法将人工审查员置于机器进修/反应轮回中,能够对模子成果停止继续审查和调整。那会使机器进修更快、更高效,从而产生更高量量的输出。本年早些时候,我们讨论了ASR的改进若何使Rev的人工转录员(称为“Revvers”)可以对ASR草案停止后期编纂,从而进步工做效率。Revver的转录能够间接输进到改进的ASR模子中,构成良性轮回。

关于ASR,人类语言专家仍然不成或缺的一个范畴是反向文本标准化(ITN),他们将识此外字符串(如“five dollars”)转换为预期的书面形式(如“$5”)。Pusateri等人提出了一种利用“手工语法和统计模子”的混合办法,Zhang等人陆续沿用那些构想,用人工造造的FST约束RNN。

0
回帖

未来十年,AI 语音识别将朝着这五个方向发展 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息