小说网站代理,标准网站建设报价,施工企业主要负责人包括哪些,wordpress新闻爬我们在上一篇讲到语音数据采集分为常见的两种语音数据采集类型#xff0c;一个是语音识别数据#xff08;ASR#xff09;#xff0c;另一个是语音合成#xff08;TTS#xff09;。这一期中#xff0c;我们将介绍语音合成技术是什么#xff0c;如何采集语音合成数据和制…我们在上一篇讲到语音数据采集分为常见的两种语音数据采集类型一个是语音识别数据ASR另一个是语音合成TTS。这一期中我们将介绍语音合成技术是什么如何采集语音合成数据和制作帮助你快速了解语音合成的背景和基础原理。 语音合成TTS是什么
随着人机交互的模式越来越广泛地普及我们的生活中以扬声器和声波作为主要音频传播媒介文本到语音的技术不断迭代更加丰富了我们的沟通方式机器说话愈发灵动与自然这些都离不开语音合成技术的与时俱进。 语音合成技术的背景
语音合成即文本转语音(text to speech)的技术是由文字形成的计算机语音。历史上已知最早模仿人类语音的装置是Wolfgang von Kempelen在200多年前建造的。他建造的机器由一些元素构成包括可以用来模仿人类用来产生语音的各种器官–肺部的波纹管、声道的管子、鼻孔的侧支等。对这种人类发声器官的机械模拟的兴趣一直持续到二十世纪。19世纪后半叶赫尔姆霍尔茨等人开始通过叠加具有适当振幅的谐波波形来合成元音和其他声母。 传统的TTS主要是通过组合多个模块构成流水线来实现的整个系统可以大致分为前端(frontend)和后端(backend)。
语音合成TTS技术原理
我们可以把TTS看作是一个序列对序列的问题它包括2个主要阶段即文本分析和语音合成。文本分析与一般的自然语言处理NLP步骤相当相似尽管我们在使用深度神经网络时可能不需要Heave预处理。例如句子分割、单词分割、语音部分POS。第一阶段的输出是grapheme-to-phoneme(G2P)它是第二阶段的输入。在语音合成中它将第一级的输出生成波形。
语音合成TTS系统和数据制作
NLP自然语言处理它将原始文本(包括标点符号、缩写、数字和符号)转换成语音转写。转录的内容包括音素语音的一部分以及根据文本中的提示而产生的语调语调、节奏、语速。 数字信号处理(DSP)它将语音表征转化为通过计算机或其他设备的音频输出的文字。DSP需要创建一个语音字库即人类将一系列试图触及语言中每个音素组合的短语录入系统。系统通过连接音频样本从这个语音字库建立语音。然后它应用算法来平滑完成的短语并调整语音的音量和速度等方面。 过去的机器虽然能正常发声但是随着时代的发展和人机交互体验的需求增加机器的声音就显得苍白而僵硬无法给人类提供最生动的交互体验。如今现代语音合成系统更关注体验至上的个性化技术产出分为通用性TTS、个性化TTS和情感TTS。
通用TTS: 可满足商业化需求制作过程包括前期录音人员准备、录音场地确定、录制数据采集、后期数据清洗加数据标注可以得到一套完整的“商用数据库”。个性化TTS: 根据数据产品特点提供不同类型的声音进行个性化定制语音库。情感TTS: 通过XML-tagging的prosodic参数。这种预处理协助TTS系统生成合成语音该语音含有情感线索。情感意图识别是情感TTS的重要技术之一它也与自然语言处理有着密不可分的关系。想要更加趋于人类的真实语言让机器被赋予情感而不只是一台冰冷的复读机这是企业都想要产品能够达到的效果。而想要让这样一台机器生动的说话情感合成语音技术背后的数据库也将更为丰富多样。
语音合成的常见两种方法是拼接法和参数法。
拼接法在预先录制的语料库中抽取合适的拼接单元而成。对于声音的质量要求高但是不利于商用数据规模量级需求过高导致商用成本过高。参数法对语料库进行参数建模分为前段处理、建模和声码器三个模块。对数据库需求小但声音质量会粗糙。 语音合成的常见应用场景
最后作为上游技术的语音合成技术如何应用于下游AI场景中语音合成助手、智能客服、有声读物、呼叫中心、车载娱乐设备等等都是语音合成技术常见的应用场景。为了让用户体验更为真实和丰富许多更上游的数据采集公司都会与声优演员直接合作让客户去挑选声音满足他们的终端用户的需求。想象一下夜晚失眠辗转反侧的时候当你打开博客听到的是神谷浩史的声音会是什么感受