语音识别算法到工程全链路覆盖,从零构建高性能、可商用的语音服务《语音识别服务实战》系统介绍语音交互流程中的语音前端处理、语音识别和说话人日志等算法原理,重点介绍如何基于WebRTC,Kaldi和gRPC,从零构建产业界稳定、高性能、可商用的语音服务,具有很强的实践性。
近年来,随着声传感、声信号处理、模式识别、机器学习、云计算理论与方法的快速发展,以及不同场景下大规模带标注语音数据的出现,语音识别技术再次经历了跨越式发展,也逐渐被大规模推广应用。本领域中介绍*新技术和应用的著作不少,但大多数主要专注于某些专题的方法和算法。相比而言,本书涵盖的内容比较广泛,既包括前端语音信号处理的基础方法,如端点检测、降噪、回声消除、麦克风阵列和声源测向/定位等,也包括语音识别、模型训练、声纹识别等后端处理技术。书中还介绍了前端和后端处理常用的基础工具,并提供了大量应用的实例。相信读者,尤其是工作在该领域一线的系统、产品与应用研发人员,一定能获益匪浅。 陈景东西北工业大学教授、博导、智能声学与临境通信中心主任,国家特聘专家,IEEE Fellow,“杰出青年科学基金”获得者一套完整的语音识别系统需要采集设备、前端处理、后端模型前后打通、整体优化,才能达到理想的识别效果。本书作者从事语音算法研究多年,具有丰富的工业应用经验,把项目实战过程和Kaldi开源代码完整详细地总结到书中,技术人员可从中受益,搭建工业级的语音识别系统。
洪青阳 厦门大学副教授、天聪智能创始人
《语音识别服务实战》是一本面向语音识别从业人员的参考书,既包括语音信号的基础知识,也包括构造实用识别系统的全栈过程,内容完整丰富。特别是,该书以开源数据和开源代码为基础进行技术描述,具有很强的实操性,有利于打破知识壁垒,帮助更多青年、学生和非语音方向的工程师快速进入该领域,对行业的发展产生积极的促进作用。
王东清华大学在过去的十多年中,语音识别技术的发展速度超出了很多人的想象。随着神经网络等技术带来识别效果的突破,语音识别也从十多年前的一个小众研究领域,发展到已经渗透在人们生活的方方面面,在交互、出行、通行等领域都扮演着不可或缺的角色。随之而来的问题是语音识别领域相关资料的陈旧和匮乏,其中的经典图书已经不能满足大部分从业者、科研工作者和工业应用的需求。《Kaldi语音识别实战》一书围绕语音识别领域知名的开源工具包Kaldi,讲述语音识别技术的*新进展,从某种程度上弥补了资料的不足。而《语音识别服务实战》一书则跟进一步,从语音识别落地应用的视角切入,详细阐述了如何用语音识别技术搭建相关的应用服务。
本书作者都具有丰富的语音识别技术落地应用经验,深入浅出地讲解了语音识别技术从原理到应用落地的全过程。本书是一本很好的语音识别技术落地的参考用书。
陈果果 《Kaldi语音识别实战》作者云从科技在打造人机协同平台的过程中,也基于Kaldi构建了众多语音交互基础算法,在很多项目中取得了非常好的效果,并落地在不同的实际应用场景。
本书作者长期工作在语音算法一线,具备丰富的实战经验。书中描述的绝大多数算法在商业语音服务平台都有具体的应用。很高兴看到作者能够通过本书把他们在实践中积累的宝贵经验分享给广大读者,也希望本书能够对推动语音技术的发展与落地起到显著的作用。
刘琼 云从集团首席科学家
人工智能的快速发展使得机器开始逐渐理解人类的语言。机器具备了接近人类的认知能力,这也让我们人类在宇宙中增加了一个新的“伙伴”,从此人类不再孤独。自然语言理解,尤其是语音识别,也在经历着技术上的范式改变,从原来基于统计和规则,逐步转变为依赖深度神经网络技术。数据不仅被用来计算概率模型,而且更多地被用来训练深度学习模型,尤其是近些年兴起的基于自注意力结构的Transformer模型。在大数据、重计算和深模型的共同推动下,才有了语音识别技术质的飞跃,也支撑了智能客服、语音助理、智能家居等产业的繁荣发展。
《语音识别服务实战》一书是新时代的产物,从实践的角度,很好地阐述了语音识别领域正在发生的变化。
张家兴 IDEA研究院讲席科学家,认知计算与自然语言研究中心负责人
随着语音算法技术的不断发展与完善,如何进行工程落地成为语音商业应用中普遍面临的问题。工程落地不仅要考虑模型效果,还要考虑资源占用、模块联调且整个架构要具有可靠性、可扩展性和可维护性。本书围绕如何从零构建一个完整的语音识别系统,深入浅出地介绍了语音识别前端算法、语音识别算法及说话人日志算法原理;基于Kaldi的模型训练;语音识别工程落地和服务搭建。本书适合作为语音技术研究人员及对语音技术感兴趣的开发人员的参考用书。