# AIkit 离线语音听写 Windows SDK 文档

# 1. 离线识别能力简介(能力id:e0e26945b)

多平台(安卓32、安卓64、x86_linux、arm、arm64,x64_Windows,x86_Windows)多语种(中、英、日、韩、俄、法、德、西、泰、维、阿拉伯)

支持多实例并发:否

协议类型:同步流式

# 2. 授权说明

授权方式支持【设备授权】

设备授权: 按照设备数和有效期授权,激活设备数达到授权量上限后,新设备将无法继续激活使用。SDK采集多个设备标识按照权重算法生成设备指纹精准标识设备,计量准确。支持所有平台。

在能力首次使用时,需要先激活后方可使用。激活时会获取授权license缓存到设备内部存储中。

在线激活: 在首次使用时,需要将设备联网,SDK初始化时获取授权license激活。设备激活后,即可在无网环境下使用。如果有恢复出厂设置或清空应用缓存等操作,将license清除后,能力将无法正常使用,将设备联网重启应用即可恢复。适用于设备可联网场景,激活过程简单。

# 3. 兼容性说明

类别 兼容范围
接口 C++ 接口
网络 设备具备联网条件,可使用在线激活方式,首次使用需要连接网络。
开发环境 建议使用 Visual Studio 进行开发

# 4. SDK包组成

DEMO 中已经集成了SDK, 您可以参考DEMO,集成SDK。集成前,请先测通DEMO,了解调用原理。如果您自己代码过于复杂,可以使用一个helloworld项目了解集成过程。

将SDK zip包解压缩,得到如下文件:

  • Demo //能力SDK Demo、SDK使用说明readme.txt,示例能力调用
  • SDK //能力SDK,导入SDK库时使用
  • resource //能力对应模型资源,多能力组合时,resource文件夹中包含多个子文件夹
  • 测试报告 //SDK 测试报告
  • ReleaseNotes.txt //SDK版本日志

# 5. 接口调用流程

# 6. 快速集成指南

# 6.1 导入SDK库

将SDK/libs文件夹(包含libAIKit.so、各能力引擎库)、头文件文件夹include存放到项目中,并在环境变量里添加库路径;

#include "aikit_biz_api.h"
#include "aikit_constant.h"
#include "aikit_biz_config.h"

# 6.2 配置权限

SDK工作路径需要读写权限用于存储日志及授权license,缺少读写权限,能力将无法正常使用。

# 6.3 资源导入

复制resource文件夹中文资源到应用的工作目录,即为SDK初始化中的workDir。该路径需要赋可读、可写的权限。

# 6.4 SDK初始化

在使用能力前,需要首先初始化SDK,使用SDK提供的单能力或组合能力时,SDK均只需要初始化一次。SDK V2.2.13+版本SDK初始化示例代码如下(2.2.12及之前版本SDK初始化参考下文):

AIKIT_Configurator::builder()
      .app()      
         .appID("")
         .apiKey("")
         .apiSecret("")
         .workDir("./") //指定SDK工作路径,此处仅为示例
        .auth()
         .ability("e0e26945b")
        .log()  
         .logLevel(LOG_LVL_INFO)
         .logPath("./");
 
int ret = AIKIT_Init();
if(ret != 0){
    printf("AIKIT_Init failed:%d\n",ret);
    goto exit;
}

SDK初始化参数中appID、apiKey、apiSecret 和workDir为必填项。

初始化配置选项分为三个部分,分别是应用、授权、日志相关配置,可通过链式的调用方式去配置相关参数

模块 说明 配置选项 类型 必填 说明
app 配置SDK应用相关信息 appID string 应用ID
apiKey string 离线引擎托管平台创建应用后,生成的唯一应用标识
apiSecret string 离线引擎托管平台创建应用后,生成的唯一应用秘钥
workDir string SDK工作目录。默认授权缓存、读取能力资源、写SDK日志在此路径下
resDir string 指定资源读取路径,不设置默认从workDir读取
auth 配置SDK授权相关信息 authType string 离线授权类型(0或1),0-->(默认)设备级授权(DEVICE)和 1-->应用级授权(APP)
channelID string 渠道ID,存在多个能力集可指定使用的能力集
UDID string 用户自定义设备标识,需要服务端配置开启支持后才支持使用,建议设置长度低于256
ability string 竞争授权注册的能力id组合,格式如"xxxxx1;xxxxx2",多个能力通过英文分号隔开,如果进行设置,则按照注册的能力进行授权,如果设置为空或者没有设置,则按照旧版sdkid的方式进行授权
log 配置SDK日志信息 logLevel int 日志的输出等级:LOG_LVL_VERBOSE: verbose日志,日志最全LOG_LVL_DEBUG: debug级别LOG_LVL_WARN:警告级别信息LOG_LVL_INFO: 重要信息LOG_LVL_ERROR:错误级别日志LOG_LVL_FATAL:错误级别日志LOG_LVL_OFF:错误级别日志
logMode int 模式: LOG_STDOUT:linux 控制台 LOG_FILE:文件形式
logPath string 输出模式为文件时的文件名称(带有文件名称的路径)

# 6.5 能力调用

6.5.1 创建能力会话

通过 start 方法开启会话,传入当前能力所需要指定的参数。示例代码如下:

AIKIT_ParamBuilder* paramBuilder = nullptr;
paramBuilder = AIKIT_ParamBuilder::create();
//paramBuilder->param("languageType", 0);
//paramBuilder->param("vadOn", true);
//paramBuilder->param("rltSep", "blank",strlen("blank"));
//paramBuilder->param("vadEnergyThreshold", 9);
//paramBuilder->param("vadThreshold", 0.1332);
//paramBuilder->param("vadSpeechEnd", 120000);
//paramBuilder->param("vadResponsetime", 150000);
//paramBuilder->param("vadLinkOn", false);
//paramBuilder->param("pureEnglish", false);
//paramBuilder->param("outputType", 0);
//paramBuilder->param("puncCache", true);
//paramBuilder->param("postprocOn", true);
ret = AIKIT_Start("e0e26945b",AIKIT_Builder::build(paramBuilder),nullptr,&handle);
if(ret != 0){
  printf("AIKIT_Start failed:%d\n", ret);
  goto exit;
}

功能参数说明:

功能标识 功能描述 数据类型 取值范围 必填 默认值
languageType 语种类型 int 0:中英, 20:日语, 21:韩语, 22:俄语, 23:法语, 24:西班牙语, 25:德语, 27:泰语, 28:阿拉伯语, 50:维吾尔语, 51:藏语, 26:越南语, 30:葡萄牙语 0
vadOn vad功能开关,建议true bool true:开启vad, false:关闭vad true
rltSep 输出词之间的分隔符,默认填写blank string 最小长度:0, 最大长度:6 blank
vadEnergyThreshold vad的能量门限值,建议9 int 最小值:0, 最大值:12 9
vadThreshold vad模型阈值,建议0.1332 double 最小值:0, 最大值:1 0.1332
vadSpeechEnd vad尾端点,建议120000 int 最小值:100000, 最大值:150000 120000
vadResponsetime vad结束参数,建议150000 int 最小值:100000, 最大值:170000 150000
vadLinkOn vad是否开启vadLink功能,开启则将多个vad子句拼在一起解码,建议false bool true:开启vadlink, false:关闭vadlink false
pureEnglish 是否为纯英文输出 bool true:是, false:否 false
outputType 输出类型,0代表json输出,1代表普通文本输出 int 0:json输出, 1:普通文本 0
puncCache 句尾标点是否为缓存模式 bool true:是, false:否 true
postprocOn 后处理开关,没有PPROC资源的语种建议设置为false bool true:开启, false:关闭 true

AIKIT_Start 方法说明:

参数 类型 必填 说明
ability char* 能力标识ID
param AIKIT_BizParam* 能力的配置和输入,可使用AIKIT_Builder快捷构建
usrContext void* 用户上下文指针,保存在outHandle中,用以回调中使用
outHandle AIKIT_HANDLE**(指针的指针) 生成的会话句柄

返回:AiHandle

AiHandle对象内部提供isSucess方法,用于判断会话是否启动成功,0=成功,非0失败。

0=成功,其他=错误

# 6.5.2 送入数据

通过调用 AIKIT_Write 方法送入能力输入数据。

AIKIT_Write 方法说明:

参数 类型 必填 说明
handle AIKIT_HANDLE* AIKIT_Start生成的会话handle
input AIKIT_InputData* 输入数据

送入数据实现代码如下:

AIKIT_DataBuilder* dataBuilder = AIKIT_DataBuilder::create();
//输入音频数据
AiAudio* inputData = AiAudio::get("input")->data(buffer,bufferLen)->valid();
dataBuilder->payload(inputData);
 
int ret = AIKIT_Write(handle,AIKIT_DataBuilder::build(dataBuilder));
if (ret != 0) {
  printf("AIKIT_Write:%d\n",ret);
  goto exit;
}
  • 能力输入数据

    数据段名称:input 数据类型:音频

    以下是音频输入参数含义说明:

    字段 含义 数据类型 取值范围 默认值 说明 必填
    encoding 音频编码 string lame, speex, opus, speex-wb speex-wb 取值范围可枚举
    sample_rate 采样率 int 16000, 8000 16000 音频采样率,可枚举
    channels 声道数 int 1, 2 1 声道数,可枚举
    bit_depth 位深 int 16, 8 16 单位bit,可枚举
    data 音频数据 string 音频大小:0-10M
    frame_size 帧大小 int 最小值:0, 最大值:1024 0 帧大小,默认0

# 6.5.3 获取能力输出结果

送入数据后,需要调用AIKIT_Read方法获取到能力结果,AIKIT_Read方法为阻塞式方法,当次送入数据处理完毕读取到结果后会返回结果状态码。如果有多次输入,读取到当次结果后,方可进行下一次数据输入。
read方法调用方法如下:

int ret = AIKIT_Read(handle, &output);
if (ret != 0) {
  printf("AIKIT_Read:%d\n", ret);
  goto exit;
}

AIKIT_Read方法说明:

参数 类型 必填 说明
handle AIKIT_HANDLE* AIKIT_Start生成的会话handle
output AIKIT_OutputData**(指针的指针) 输出数据

获取能力结果

结果通过outputData参数返回

能力结果数据格式及含义如下:

数据段名称:output 数据类型:文本

以下是文本输出参数含义说明:

字段 含义 数据类型 取值范围 默认值 说明 必填
encoding 文本编码 string utf8, gb2312 utf8 取值范围可枚举
compress 文本压缩格式 string raw, gzip raw 取值范围可枚举
format 文本格式 string plain, json, xml json 取值范围可枚举
data 文本数据 string 文本大小:0-1M

# 6.5.4 结束会话

数据处理完毕,调用AIKIT_End方法结束会话,示例代码如下:

int ret = AIKIT_End(handle);
if (ret != 0) {
  printf("AIKIT_End failed : %d\n", ret);
}

AIKIT_End方法说明:

参数 类型 必填 说明
handle AIKIT_HANDLE* AIKIT_Start生成的会话handle

# 6.6 SDK逆初始化

当不再使用能力时,需调用逆初始化方法释放资源,示例代码如下:

/**
* SDK逆初始化函数用以释放SDK所占资源 *
@return 结果错误码,0=成功 */
 
AIKITAPI int32_t AIKIT_UnInit();

# 7. 高级功能

# 7.1 日志配置

可根据需要设置日志输入级别、方式等

/**
 * 设置日志级别,模式,以及保存路径
 * @param  level    日志级别
 * @param  mode     日志输出模式
 * @param  path     输出模式为文件时的文件名称
 * @return 错误码 0=成功,其他表示失败
 */
 AIKITAPI int32_t AIKIT_SetLogInfo(int32_t level, int32_t mode, const char* path);
  • 日志配置参数说明:

    参数 类型 必填 说明
    参数 类型 必填 说明
    level int32_t 日志的输出等级:
    LOG_LVL_VERBOSE: verbose级别,日志最全
    LOG_LVL_DEBUG: debug级别信息
    LOG_LVL_WARN:警告级别信息
    LOG_LVL_INFO: 重要信息
    LOG_LVL_ERROR:错误级别日志
    LOG_LVL_FATAL:错误级别日志
    LOG_LVL_OFF:错误级别日志
    mode int32_t 模式:
    LOG_STDOUT:linux 控制台
    LOG_FILE:文件形式
    path const char* 输出模式为文件时的文件名称(带有文件名称的路径)

# 7.2 获取设备ID

通过传入字符类型的指针地址,来获取设备ID。

/**
 * 获取设备ID
 * @param deviceID    设备指纹输出字符串
 * @return 结果错误码,0=成功
 */
 AIKITAPI int32_t AIKIT_GetDeviceID(const char** deviceID);

# 7.3 设置授权时间间隔

设置在线授权校验间隔时长,默认为300s,可自定义设置,最短为60s,最长为24小时,单位秒,示例代码如下:

/**
 * 设置授权更新间隔,单位为秒,默认为300秒
 * AIKIT_Init前设置
 * @param interval    间隔秒数
 * @return 结果错误码,0=成功
 */
 
 AIKITAPI int32_t AIKIT_SetAuthCheckInterval(uint32_t interval);

# 7.4 获取SDK版本号

/**
 * 获取SDK版本号
 * @return SDK版本号
 */
 
 AIKITAPI const char* AIKIT_GetVersion();
在线咨询
体验中心