速途网9月30日消息(报道:李楠)
9月28日,“遇见未来-智能语音进化论”主题分享活动在京东JD+智能奶茶馆成功举办,此次分享活动邀请到灵隆科技首席科学家汤博士、科大讯飞云平台事业部商务总监汤熙、北京小鱼儿科技合伙人兼销售市场副总裁李传刚、北京方正信息技术有限公司数码外设事业部总经理余斌、京东智能市场总监李俊周等行业大咖对于智能语音技术的历史及行业的发展进程进行了生动的解析。
语音识别是如何发展起来的?
语音识别在我们的生活中扮演着越来越重要的角色,地图导航、智能交互等领域均有使用。灵隆科技首席科学家汤博士为在场观众回顾了语音是被的前世今生,他讲道最早的语音识别是50年代的贝尔实验室Audry系统,能识别十个英文数字;随后60年语音识别开始被研究,当时做的比较成熟一点的是小词汇表的孤立词识别,支持一些命令词的识别;之后70、80年代出现了很大的两个进步,语音识别中有很多技术问题,其中的两个主要问题是语音模型和语言模型的建立;90年代初,卡耐基梅隆大学的李开复博士领头开发了Sphinx系统;而1997年IBM,推出了第一款商品化的语音识别系统ViaVoice,可以说90年代是语音识别技术发展的第一次高潮。在这之后大量公司投入这个领域,如微软、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
语音合成是什么?
语音是如何合成的?又是如何发展的?汤博士讲道,语音合成的三个标准,第一是可懂、第二是自然、第三是有情感。目前的语音合成水平可以做到自然这个层次,机械味不是那么浓,现在突破的主要方向是在情感方面进行进一步研究和探索。关于语音合成的发展时间,汤博士认为是从50年代开始的,最早的方法是采用参数合成的方法;7、80年代人们发明了各种共振峰合成器这个方法的优势是占用资源小,但缺点是可懂度低;90年代,波形拼接方法被提出;随后,人们把HMM模型引入,用来训练语音库,这样大大减少了语音库的大小,这样就形成了可训练的语音合成方法;2014年开始,大家开始把深度神经网络也用在参数语音合成里,最新的报道DeepMind用深度神经网络,提出了语音合成质量的自然度,号称是提高了50%。
智能语音如何理解?
语音识别与语音合成之后,汤博士为在场关注讲解了智能语音的相关知识。他认为智能语音需要来两方面来理解,一方面是在语音技术当中加入了智能的因素。另一方面是语音识别技术加上了自然语言理解,语音识别只是把语音变成了文字,要理解文字后面的意思是什么,就需要自然语言理解,所以说目前来说,如果要做语音产品,光有语音识别技术是不够的,还需要自然语言理解,能理解你说的话,那才叫智能语音。