- “语音合成”二三事丨智言智语
- 来源:中科院之声
编者按: 智显未来,洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏,为你介绍人工智能相关知识与故事,从最新成果到背后趣闻,带你徜徉AI空间,看人工智能如何唤醒万物,让世界变得更美好 。
语音合成(Text to speech,TTS)是一种将文字自动转换为语音信号的技术,涉及声学、语言学、自然语言理解、信号处理、模式识别等多个学科,是信息处理领域的一门前沿技术。
在早期,“语音合成”是指用机器产生人工言语的技术。
它可以通过力学的(机械的)、光学的、或电子的手段产生类似人说话的声音。最早的语音机器是由Von Kempelen于1780年制造的。它完全是机械式的,通过风箱向簧片送气来模拟声带的振动。声道是用一段软的橡胶管模拟的谐振器,其形状由操作员的手来控制。操作者通过控制操作杆和开口,可以发出/a/、/o/、/u/、/p/、/l/,、/m/、/r/、/n/,等元音和辅音。20世纪30年代,Paget的合成器已能说出像“Hello London,are you there?”之类的简单的话。但是,所有这些机械式合成器合成的语音都和人说的自然语音相差甚远。
图1 语音机器Paget
随着电子技术的发展,人们开始使用计算机、数字滤波器及各种电于设备进行语音合成的研究。
G.Fant在1960年所著 Acoustic Theory of Speech Production 一书中,系统地阐述了言语产生的声学理论,从而使语音合成技术的发展迈出了关键的一大步,随之而来的是大批的基于该理论之上的串联或并联共振峰合成器的诞生。
从八十年代末,语音合成技术又有了很大的发展,特别是基音同步叠加方法(Moulines and Charpentier, 1990)的提出,使基于时域波形拼接方法合成的语音自然度大大提高。
20世纪末,统计参数语音合成系统已经成为了新的主流算法,尤其以基于隐马尔可夫的语音合成最为成功。其可以在不需人工干预的情况下,高效自动的搭建合成系统,由于统计的缘故,对发音人和发音风格的依赖较小,合成语音的语音风格和音色容易人为控制,并且合成系统的规模没有波形拼接的那么大。
图2 基于统计参数语音合成系统
近年来,一些学者致力于端到端的语音合成模型的建模,并取得了性能上的巨大提升。2016年,谷歌Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。
图3 基于深度学习的WavetNet语音生成模型
该模型可以直接对原始语音数据进行建模,避免了声码器对语音进行参数化时导致的音质损失,在语音合成和语音生成任务中效果非常好。基于此,端到端语音合成模型不断迅速发展,在某些数据集上达到了媲美人类说话的水平。
随着计算机硬件水平的不断提高和机器学习技术的蓬勃发展,语音合成技术逐渐从最初的基于语音学规则的参数合成,发展成基于大语料库的拼接合成和基于统计参数的语音合成,合成语音的可懂度和自然度也取得了明显提升,在很多场景都取得了成功的应用,例如语音播报系统、有声读物、地图导航、信息查询系统等。
可以说语音合成技术正在悄然改变我们的生活,甚至将来会成为人们生活中不可或缺的一部分。
图4 语音合成应用场景
参考文献:
1. H. Zen, K. Tokuda, and A. Black, “Statistical parametric speech synthesis,” Speech Communication, vol. 51, no. 11, pp. 1039–1064, Nov. 2009.
2. J Shen, R Pang, R J Weiss, et al, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” in Proceedings ICASSP . IEEE, 2018, pp. 373–376.
3. Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016.
4. Wang T, Tao J, Fu R, et al. Bi-level Speaker Supervision for One-shot Speech Synthesis[J]. Proc. Interspeech 2020, 2020: 3989-3993.
来源:中国科学院自动化研究所
温馨提示:近期,微信公众号信息流改版。每个用户可以设置 常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“中科院之声”的文章,你一定要进行以下操作:进入“中科院之声”公众号 → 点击右上角的 ··· 菜单 → 选择「设为星标」
科技
-
-
- 线下展会,市民畅享科技大餐
- 5月28日,是2021中国国际大数据产业博览会线下展最后一天,也是免费向市民开放的公众日。趁此机会,记者继续带您探秘国际综合馆(W1馆)、数字应用馆(W2馆)、前沿技术馆(E1馆)、智慧产业馆(E2馆)4...
- 贵阳晚报
-
-
-
- 为何新药研发、基因测序、卫星遥感的发展提速都需要它?
- 人类第一次完整全基因组的测序花了13年,在新技术的加持下,这个时间已经降低到1天以内;没有这项新技术加持,电影《阿凡达》的渲染可能需要上万年;这项新技术还让新药的研发周期大幅缩短,让卫星遥感定位精度...
- 华为
-
-
-
- 大型金属3D打印厂商钢研极光亮相TCT,展示强大的生产服务能力
- 2021亚洲3D打印、增材制造展览会 (TCT Asia)于2021年5月26日-28日在国家会展中心(上海)7.1馆隆重举办。作为官方战略合作媒体,南极熊将会全程现场报道(地址https://www.nanjixiong.com/foru
- 南极熊3D打印
-
-
-
- 美国国家情报委员会《全球趋势2040——竞争更激烈的世界》报告摘译
- 2021年3月,美国国家情报委员会(NIC)发布了每四年一度的全球趋势预测报告《全球趋势2040——竞争更激烈的世界》。NIC是美国最高层级的战略情报机构,该委员会的成员均为来自政府、学术界和私营部门的高级专家...
- 全球技术地图
-
-
-
- 数字让监管更加智慧 上交所成功举办首届全行业技术大会
- 5月28日,上交所成功举办主题为“数字赋能,守正创新”的首届全行业技术大会。中国证监会副主席赵争平出席大会并致辞指出,证监会高度重视资本市场科技化转型与发展,确定了“数字让监管更加智慧”的愿景。...
- 上海证券报
-
-
-
- 湾区智行||中科创达赵鸿飞:汽车“新物种”需要共通的操作系统|中国汽车报
- “我是谁?我来自哪里?我要到哪里去?”这是哲学史上永恒的三大命题,同样也是我们甚至是企业需要不断思考的问题。此次采访对象——中科创达软件股份有限公司就是一家勤于思考、擅于思考的企业。这家企业在不断...
- 中国汽车报
-
-
-
- 广电总局表彰虚拟现实视频、超高清视频等5类96个优秀项目!
- 广电总局共评选出互动视频、沉浸式视频、虚拟现实视频、云游戏、超高清视频等5类96个优秀项目,分获一、二、三等奖和优秀奖,包括《中央广播电视总台5G+VR融合制播系统——春节联欢晚会 (2017- 2021)节目VR制作...
- 广电头条
-
-
-
- 占据市场最新赛道,“中国制造”机器人迎来爆发期
- 【环球时报记者 邢晓婧 杨沙沙】配餐机器人、迎宾机器人、扫地机器人……不知不觉间,中国老百姓对出现在餐馆、医院、火车站、养老院等场景的机器人逐渐习以为常,甚至家中也出现扫地、娱乐等家用机器人。有统计...
- 环球网
-
-
-
- 最受关注展项出炉,2021年北京科技周闭幕不落幕!
- 5月28日下午,2021年北京科技周闭幕式在中关村国家自主创新示范区展示中心举行。北京市科委、中关村管委会相关负责人介绍了本届北京科技周举办情况以及最受关注的展项。市科委、中关村管委会二级巡视员王建新出...
- 科普北京
-
-
-
- 魔高一尺,道高一丈:上交所VPN攻防札记
- 本文选自《交易技术前沿》总第四十二期文章(2020年12月)谢毅 / 上海证券交易所 yxie@sse.com.cn相晓辉 / 上海证券交易所 xhxiang@sse.com.cn虚拟专用网络(以下简称“VPN”)系统、互联网业务系统、外网
- Android编程精选
-
-
-
- 绿色召集令——聚力创赢,共赴绿色能源新征程!
- 申耀的科技观察读懂科技,赢取未来!申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,18年企业级科技媒体工作经验,专注企业数字化、产业智能化、智慧城市、汽车科技内容的观察和思考。
- 申耀的科技观察
-
-
-
- 汉朔科技和微软(中国)联合推动 IoT+AI 赋能全球零售
- (本文阅读时间:4分钟)2021年5月20日,全球领先的零售数字化解决方案供应商汉朔与微软(中国)在北京举行战略合作备忘录签约仪式,以进一步推动其在零售行业的全球布局和数字化战略。根据战略合作备忘录,汉朔...
- 微软科技
-
-
-
- 关于安全访问服务边缘(SASE),你需要知道的事情
- 在企业纷纷拥抱数字业务的过程中,由于边缘计算、云服务、混合网络的逐渐兴起,使得本就漏洞百出的传统网络安全架构更加岌岌可危,而且远远无法满足企业数字业务的需要。为了应对这种情况,一个全新的模型——安...
- FreeBuf
-
-
-
- [报告]2021年中国新能源汽车行业洞察(附44页PDF文件下载)
- 新能源车大势将至,造车新势力差异化突围。以下为报告节选:......文│Mob研究院本报告共计:44页。如欲获取完整版PDF文件,请扫描下方二维码加入“车友圈”获取。#重磅推荐#需要批量下载和及时更新最新汽车行业...
- 汽车之地
-
