ChatTTS以MOS 4.5骗过人耳,超拟人语音进入真人级时代

发布时间:2026/6/5 16:31:03

这款开源项目的核心突破在于:它不是在"读"文本,而是在"演"对话。传统TTS逐句生成,语气一成不变。ChatTTS基于Flow Matching和扩散模型,学会了真人说话的全部"坏习惯"——该笑的时候笑,该停的时候停,甚至会出现轻微口误和语气词。这些"不完美"恰恰是最像人的地方。

技术上,ChatTTS支持精细的副语言控制:笑声类型(大笑、轻笑、苦笑)、停顿位置、语速变化、情感强度,全部可调。用户输入一段文字,AI先理解语义情绪,再生成带有呼吸感和节奏感的语音,MOS评分已突破4.5,盲测中超过60%的听众分不清真人与AI。

更关键的是开源策略。ChatTTS lowering了超拟人语音的门槛,带动Fish Audio、CosyVoice等项目快速跟进,整个赛道进入军备竞赛。当多个模型同时突破4.5分,"真人级"就不再是某一家的标签,而是行业的基准线。

ChatTTS领跑的意义不在于它最强,而在于它证明了:AI语音,已经可以骗过人耳。

讯飞星火认知大模型

综合性能显著提升,整体对标OpenAI o3;复杂问题分步拆解,回答效果深入全面,参考信源丰富优质;深入垂直场景与核心需求,为个体和企业提供开箱即用的大模型应用;星火大模型API让您的应用快速拥有领先的AI大模型能力,接口丰富,价格灵活,支持在线调试

扒站工具