深度学习在语音识别方面主要的难题和困难是什么？

如题所述

第1个回答 2017-12-11

深度学习的应用：语音识别系统长期以来，在描述每个建模单元的统计概率模型时，大多采用的是混合高斯模型（GMM）。这种模型由于估计简单，适合海量数据训练，同时有成熟的区分度训练技术支持，长期以来，一直在语音识别应用中占有垄断性地位。但这种混合高斯模型本质上是一种浅层网络建模，不能充分描述特征的状态空间分布。另外，GMM建模的特征维数一般是几十维，不能充分描述特征之间的相关性。最后，GMM建模本质上是一种似然概率建模，虽然区分度训练能够模拟一些模式类之间的区分性，但能力有限。微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家GeofferyHinton合作。2011年微软宣布基于深度神经网络的识别系统取得成果并推出产品，彻底改变了语音识别原有的技术框架。采用深度神经网络后，可以充分描述特征之间的相关性，可以把连续多帧的语音特征并在一起，构成一个高维特征。最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络采用模拟人脑的多层结果，可以逐级地进行信息特征抽取，最终形成适合模式分类的较理想特征。这种多层结构和人脑处理语音图像信息时，是有很大的相似性的。深度神经网络的建模技术，在实际线上服务时，能够无缝地和传统的语音识别技术相结合，在不引起任何系统额外耗费情况下，大幅度提升了语音识别系统的识别率。其在线的使用方法具体如下：在实际解码过程中，声学模型仍然是采用传统的HMM模型，语音模型仍然是采用传统的统计语言模型，解码器仍然是采用传统的动态WFST解码器。但在声学模型的输出分布计算时，完全用神经网络的输出后验概率乘以一个先验概率来代替传统HMM模型中的GMM的输出似然概率。百度在实践中发现，采用DNN进行声音建模的语音识别系统相比于传统的GMM语音识别系统而言，相对误识别率能降低25%。最终在2012年11月，百度上线了第一款基于DNN的语音搜索系统，成为最早采用DNN技术进行商业语音服务的公司之一。

国际上，Google也采用了深层神经网络进行声音建模，是最早突破深层神经网络工业化应用的企业之一。但Google产品中采用的深度神经网络只有4-5层，而百度采用的深度神经网络多达9层。这种结构差异的核心其实是百度更好地解决了深度神经网络在线计算的技术难题，因此百度线上产品可以采用更复杂的网络模型。这将对于未来拓展海量语料的DNN模型训练有更大的优势。

第2个回答 2017-12-11

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别[1] 比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition），关键词识别（或称关键词检出，keyword spotting）和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

第3个回答 2017-12-11

我们需要看到，目前语音识别超过人类水平主要还是在某些受限的场景下，比如在近场麦克风和口音不重的情形下机器可以做得非常好；另外就是在语音识别系统有更多知识的场景下，比如大家经常不知道怎么转写没有接触过的一些特殊的地名和店名，而机器可以靠更大的语言模型而在这方面拥有优势。但是在更复杂场景下，尤其是在训练数据覆盖不好的场景下，机器的识别率还有待进一步提高。许多的这些复杂场景都是在使用远场麦克风时才会出现，这主要是因为麦克风距离远了之后，语音信号到达麦克风时衰减比较厉害，使得干扰信号，包括环境噪音、混响、音乐、以及其他人声的影响不能再被简单忽略。所以从需要解决的问题的角度来讲，识别系统在训练数据覆盖不好的具有多重干扰（尤其是人声干扰）的环境下的鲁棒性，是一个重要的问题。从研究的方向来讲，至少有以下几点：

* 更有效的能更好使用语言模型信息的端到端直接映射模型

* 鸡尾酒会问题的解决方案

* 能持续预测并自适应的识别系统

* 前端信号处理和后端识别系统联合优化技术

本回答被网友采纳

相似回答

深度学习在语音识别方面主要的难题和困难是什么答：语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition），关键词识别...

做好嘈杂环境的语音识别,目前难点主要在哪里?答：说一点我的个人见解：嘈杂环境的语音识别在于干扰因素太多。鸡尾酒会例子就更是如此。我觉得未来语音识别的发展方向除了继续在神经算法上发力之外，还需要持续在于如下方法上：在识别端预先构建一个先验式的对话模型。然后根据这个模型来猜测对方的语句，随后将这个猜测的语句的正确的发音，结合接收到的信息的...

什么是深度学习?有什么优点和缺点?答：深度学习是机器学习领域中对模式（声音、图像等等）进行建模的一种方法，它也是一种基于统计的概率模型。在对各种模式进行建模之后，便可以对各种模式进行识别了，例如待建模的模式是声音的话，那么这种识别便可以理解为语音识别。而类比来理解，如果说将机器学习算法类比为排序算法，那么深度学习算法便是众多...

语音唤醒耳机开发难点答：语音唤醒耳机的开发难点主要包括以下几个方面：1. 语音唤醒技术的难度：语音唤醒技术需要高精度的语音识别和处理能力，对于耳机等小型设备来说，处理能力有限，因此需要对算法进行优化和精简，以提高语音唤醒的准确度和响应速度。2. 耳机硬件设计的难度：为了实现语音唤醒功能，需要在耳机中添加麦克风和语音处理...

如何解决语音识别中的口音问题?答：抛开云计算能力，语音识别的痛点或许还有两个：1、如果想要构建支持不同口音的语音识别系统，需要对各种语种语音进行大量的采集，这需要海量的设备采集海量的数据，再进行无限次的分析，即使是全球性科技巨头都不大可能做到这种程度；2、语音识别系统的分析能力，这可能要寄望于人工智能和深度学习了。目前国内...

语音识别和图像识别的区别是什么?答：在语音和图像两个领域在2006年之前都建立了大量的数据测试集，深度学习一出现就应用于这两个方面也就不足为奇了。图象识别比较容易，因为图象可以在一个时间点成像。而语音没有可能在一个时间点的采样有用，语音多出来一个时间轴。而这个时间轴引入的难题就是：换个时间，换个人，换个背景噪音，都变得...

大家正在搜