Kaldi语音识别实战

陈果果,都家宇,那兴宇,张俊博

出版社

电子工业出版社

出版时间

2020-04-01

ISBN

9787121378744

评分

★★★★★

标签

工学信息与通信工程通信与信息系统信号与信息处理

内容简介

刚刚过去的十年是语音技术发展的黄金十年。2010年前后，从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手Siri开始，语音技术的发展转瞬进入了快车道。语音技术的基础算法不断推陈出新，语音任务Benchmark持续被刷新；语音产品的应用也从一开始很小众的语音输入，逐渐渗透到人们生活的方方面面。语音产业飞速发展，传统的语音技术教材已经满足不了该领域从业者的迫切需求。《Kaldi语音识别实战》以目前流行的开源语音识别工具Kaldi为切入点，深入浅出地讲解了语音识别前沿的技术及它们的实践应用。《Kaldi语音识别实战》的作者们拥有深厚的学术积累及丰富的工业界实战经验。《Kaldi语音识别实战》适合语音技术相关研究人员及互联网从业人员学习参考。陈果果清华大学本科学位，约翰霍普金斯大学博士学位，主要研究方向是语音识别及关键词检索，师从语音识别开源工具Kaldi主要开发者Daniel Povey，以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google开发了Google的唤醒词Okay Google的原型，现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与开发语音识别开源工具Kaldi，以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI，专注于语音识别及自然语言处理，公司于2017年被百度收购，目前担任百度智能生活事业群组（SLG）主任架构师。都家宇本科毕业于大连理工大学，后于澳大利亚新南威尔士大学电子信息工程学院学习，取得信号处理专业硕士学位。研究生期间在导师Julien Epps指导下开始进行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部，以及阿里巴巴iDST、达摩院语音组，从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与Kaldi相关的工作有：Kaldi nnet1神经网络框架中lstm作者；发起并推动全球大规模的中文开源数据集语音项目AISHELL-1、AISHELL-2，已服务于清华大学、北京大学、南洋理工大学、哥伦比亚大学等近200所国内外高校的科研项目。那兴宇本科和博士均毕业于北京理工大学，主要研究方向是语音识别和语音合成。先后任职于中国科学院声学研究所和阿里巴巴机器人，从事语音识别模型训练系统和语音交互系统的开发。目前就职于微软，担任资深应用科学家，从事语音识别算法和技术架构的开发及业务支持工作。2015年开始在Kaldi开源项目中贡献代码，参与了nnet3和chain模型的开发工作，并维护其中若干示例及OpenSLR的中文语音识别模型。张俊博博士毕业于中国科学院声学研究所，师从颜永红研究员。在小米公司从零起主导构建了整套语音算法研究框架，包括语音识别、智能设备语音唤醒、声纹识别、语音增强、用于语音应用的神经网络部署，均达到了当时的先进水平，并发表顶会论文若干篇，为后续的语音研发工作建立了基础。近期上线了用于外语学习的发音质量评测引擎，并给Kaldi贡献了发音良好度评分的代码。

内容简介

序1

序2

好评来袭

作者简介

显示全部

用户评论

隐藏评论

讲kaldi的过程，也介绍了一些重要的语音知识和设计思想，再早几年有这本书就好了

真.实战，非常详细，只可惜自己当初Kaldi入门的时候还没有这样的书

第一章科普了一些语音识别的知识，GMM、HMM之类。第二章kaldi编译安装过程。kaldi源码库里有docker镜像脚本，照着样子下载编译了一下，跑了一个sample。后面的章节还有声学建模、构图解码、深度学习，不看了，看不懂。

七八章没什么干货，其它章节收获蛮大主要包括对语音识别初步原理和kaldi的脚步解读上。不过语音识别适合入门，深度不怎么够。还是wav2vec半监督框架更好，只需要最多10%标注数据就可以比肩kaldi，大大节省标注成本。

在读过kaldi代码后带着问题看这本书，颇有收获。但声纹识别在kaldi的地位始终是语音识别的附属品，意犹未尽。全书基本是过个流程，每步生成什么，格式如何等，原理少有涉及，这本书如果讲的话，还得更厚了。

还可以吧，作为一名语音识别工程师，kaldi还是得懂一些的

很有帮助

手机扫码访问

下载地址

我要反馈

EPUB