IndexTTS 2.0让NOMI从车载工具变成"懂你的伙伴"

发布时间:2026/6/5 16:28:50

核心引擎是IndexTTS 2.0——一款自回归零样本语音合成模型。传统TTS音色固定、情感为零,而IndexTTS 2.0实现了两大突破:音色-情感解耦毫秒级时长控制。你可以让冷静的音色说出激动的话,也可以用温柔的嗓音传递严肃警告,四种情感控制方式随意切换——参考音频克隆、双音频分离、内置情感向量、自然语言驱动,全覆盖。

更关键的是"零样本克隆":仅需5秒音频,就能生成高度相似的新语音,主观听感相似度达85%以上。这意味着NOMI可以用"妈妈的声音"提醒孩子系安全带,用伴侣的声音说一句"路上小心"——情感连接远超功能层面。

时延控制同样硬核:误差小于±50ms,达到影视级同步。导航说"前方右转",语音和动画精准对齐,绝不抢拍。

底层还有讯飞星火语音大模型加持,超拟人合成MOS评分行业领先,还原度超过98%。配合NOMI GPT多智能体框架,它能感知情绪、记忆偏好、主动服务——从"工具"进化为"懂你的伙伴"。日均交互8.2次,年唤醒超4.4亿次,数据说明一切:用户早已把它当"人"了。

讯飞星火认知大模型

综合性能显著提升,整体对标OpenAI o3;复杂问题分步拆解,回答效果深入全面,参考信源丰富优质;深入垂直场景与核心需求,为个体和企业提供开箱即用的大模型应用;星火大模型API让您的应用快速拥有领先的AI大模型能力,接口丰富,价格灵活,支持在线调试

扒站工具