发音人自训练平台使用指南

发音人自训练平台,是科大讯飞提供的一项声音定制化训练的平台服务,旨在帮助用户定制更适合自己业务的发音人。发音人自训练平台降低了定制发音人的使用门槛,用户只需要上传一段符合要求的音频,通过发音人自训练平台完成自动化训练,即可训练出属于自己的定制发音人。

第一步:进入发音人自训练平台页

成功登录讯飞开放平台账户后,通过左上角的「产品服务」—「语音合成」—「发音人自训练平台」,进入到发音人自训练产品页,点击“立即定制”,进入到发音人自训练平台

第二步:创建发音人

点击“创建发音人”,进入创建流程

填写说明: “发音人名称”:可以输入自定义发音人名称,发音人名称输入要求为:中/英文字符,禁止使用标点符号、换行符等特殊字符,限制在5个字以内; “性别”:男、女或其他,三种性别任选一种; “年龄”:儿童、少年、青年、中年、老年、其他,六种年龄任选一种。 “上传音频”:展示压缩包要求,给出【示例文件】和【示例音频】。 音频格式暂时仅支持wav格式,单次最多上传10个文件,总大小不超过200M,文件时间在10分钟~15分钟内; 自训练平台目前暂时只支持中文,音频存在其他内容可能会影响最终效果; 一个音库为单个人的高质量、无噪音、无背景音的人声语音数据;多人或多种不同风格录音数据,需分开训练; 语音能量建议在10000~25000幅度之间,能量不能太小,或语音不能出现截幅,否则会影响最终的音库质量。 您上传的音频需要包括阅读“示例文件”文字的声音。

填写完毕后,点击【提交训练】完成发音人创建,进入下一流程。

备注:带*部分为必填项。

第三步:申请商用

发音人训练成功后,点击“申请商用”,填写APPID和版权声明后提交申请,申请通过后,在线购买即可调用接口使用。

第四步:接口调用

调用接口文档、调用示例可以参考在线语音合成,需注意变更的两个参数说明如下:

参数名 类型 必传 描述 示例
vcn string 发音人,申请通过后,在线购买即可看到此参数值 例如传"xiaoyan"
ent string 发音人引擎类型 固定传"ptts"

常见问题

1、定制发音人的版权属于谁?

答:定制发音人只有在申请商用通过后,发音人的版权才属于音频提供方

2、如何获得训练次数?

答:您可以在“在线语音合成”(https://www.xfyun.cn/services/online_tts)购买套餐,不同产品套餐赠送训练次数不同。

3、训练的音频要求?

答:音频格式暂时仅支持wav格式,单次最多上传10个文件,总大小不超过100M,文件时间在10分钟~15分钟内;自训练平台目前暂时只支持中文,音频存在其他内容可能会影响最终效果;

4、训练的等待时间?

答:提交音频后,预计耗时3-5小时。

5、申请商用的条件?

答:需要选择该发音人对应的平台应用以及上传版权声明