科大讯飞推出最新的语音合成模块-XF-S4240
1. 概述
语音合成技术,简称
TTS(
Text To Speech)技术,该技术解决如何将文字信息转化为声音信息的问题,从而变看为听,使得人们获取信息的方式更加丰富和自然。语音合成技术是实现人机语音通信的关键技术之一,涉及声学、语言学、数字信号处理、计算机科学等多种学科知识,是中文信息处理领域的一项前沿技术。
XF-S4240语音合成模块是安徽中科大讯飞信息科技有限公司研发的一款高端中文语音合成模块。该模块可通过
UART、
SPI和
I2C三种接口接收待合成的文本,直接合成为语音输出。模块采用
COB(Chip On Board)封装,可方便的集成到需要中文语音合成功能的嵌入式设备之中。
2. 应用领域
产品面向的用户群体主要包括以下领域的开发商:
l 车载调度终端
l 车载
GPS导航终端
l 排队叫号系统
l 考勤机
l 公交报站器
l 税控机
l 以及其他有语音合成需求的用户
3. 功能规格
XF-S4240语音合成模块在文本处理前端集成了多种智能的文本分析算法,将规则和统计等处理方法进行了有机的结合,具备了较强的分词、多文本内码识别、多音字识别、韵律环境预测能力,可以自动识别和处理日期时间、数值金额、电话号码等文本的能力,可以利用特殊的控制标识对模块的合成效果进行语速、语调和音量上的调整,以及利用控制标识对姓氏进行准确的识别。
l 文本合成功能:
使用科大讯飞
InterSound4.0 KT系统作为模块内核。模块支持任意中文文本的合成,支持英文字母的合成,遇到英文单词时按字母方式发音。支持四种内码格式:
GB2312、
GBK、
Unicode、
Big5。
l 文本分析算法:
模块具有智能的文本分析算法,对常见的数值、电话号码、时间日期、度量衡符号等格式的文本,系统能够根据内置的文本匹配规则进行正确的识别和处理。如“
2004/12/21”可以识别并读作
“二零零四年十二月二十一号”。系统还可以处理中文姓氏类型的文本,如“曾明”可读作“
zeng1 ming2”。
l 多发音人:
模块带有男女声两种音库,内固化有音效提示音,可用于铃声和信息提醒。
l 支持拼音输入识别
汉语拼音表示的音节也可以作为输入被合成。但是这种方式的输入会按照一字一顿的方式合成。
l 文本标记功能:
模块允许在文本中插入特殊控制标记,利用这些控制标记可以调节模块的参数,提升模块文本分析的正确率,:可调节模块输出声音的音量大小、调节语速和语调、实现男女声发音人的切换、产生静音间隔、强制分词、标识中文姓氏文本等。
4. 特点
l 可合成任意的中文文本,支持英文字母的合成;
l 支持
GB2312、
GBK、
BIG5、
UNICODE四种内码格式的文本;
l 具有智能的文本分析处理算法,可正确的识别和处理数值、号码、时间日期及一些常用的度量衡符号,具备较强多音字处理和中文姓氏处理能力;
l 双发音人:男声、女声;
l 清晰、自然、准确的文语音合成效果;
l 集成提示音效,针对某些行业领域的常见语音提示音;
l 支持多种控制命令,包括:合成、停止、暂停合成、继续合成等;
l 支持多种文本控制标记,提升文本处理的正确率;
l 支持休眠功能,在休眠状态下可降低功耗;
l 支持
UART、
SPI、
I2C三种数据通讯接口,
UART波特率可以定制;
l
Line out音频输出;