产品特性

  • 上下文纠错
    针对上下文进行语义理解,将中间结果进行智能纠错,确保准确性。
  • 文字流时间戳
    对于音频流实现毫秒级识别,并返回带有时间戳的文字流,便于二次开发。
  • 文字格式智能转换
    对结果中出现数字、日期、时间等内容格式化成规整的文本。
  • 标点智能预测
    运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。

技术规格

  • 输入

    • 形式:实时音频流

      支持格式:PCM

      采样率:16KHz

      采样精度:16bits

    • 支持语种:中文普通话

      声道:单声道

      分片时长:40ms

  • 输出

    • 形式:json格式字符串

      编码:UTF-8

      结果:句子开始&结束时间&词识别内容&词标识&词开始时间&词结束时间&结果类型标识&段落ID,整句的中间结果,整句的最终结果

注:

1、文法格式智能转换包括电话号码、车牌、日期、时间以及量词的规整,如“五点三十”引擎会识别规整为“5:30”。

2、词属性包括:普通词;语气犹豫词,如“嗯”、“啊”、“呃”或者无意义的重复词等;标点符号,如“,”等。

3、语言支持:中国大陆地区普通话。后续将支持更多语种。

4、讯飞开放平台的实时语音转写需接入WebSocket API接口,针对有编程基础的开发者用户。如果您是个人用户,不想通过编程方式直接实现语音转写功能,可以去讯飞听见官网,了解语音转写功能的更多详情。

应用场景

  • 直播字幕
    在电视直播或现场直播过程中提供实时字幕,提升直播效果
  • 视频会议&电话会议
    将视频以及电话会议中的发言内容实时识别为文字,防止错过重要会议内容,提高会议效率
  • 客服中心
    将客户的电话语音内容实时识别为文字,作为客服答疑的参考记录

客户案例

  • 上海电视台
  • 天润融通
  • 唱吧
  • 掌众金服
  • 爱屋吉屋

计费方式

  • 开放平台实时转写业务按并发路数收费,即同一时间允许进行实时转写的WebSocket连接数。单价为2万元/路/年

  • 新开通的用户,我们可为您提供限时的免费试用,点击立即申请试用

开发者资源

温馨提示

  • 开放平台“实时语音转写”需要WebSocket接入,针对是有编程基础的开发者用户。如果您是个人用户,不想通过编程方式直接实现语音转写功能,可以去讯飞听见官网,了解语音转写功能的更多详情。