# 歌曲识别 API 文档

# 接口说明

歌曲识别技术分为歌曲原声识别以及哼唱识别。歌曲原声识别通过听筒收集音乐播放信息,生成音频指纹,在曲库中识别到对应的歌曲。 哼唱识别通过用户对着话筒哼唱小段歌曲,系统自动识别并检索出所哼唱的歌曲。现仅支持哼唱识别,原声识别效果仍在优化中,暂时未能开放,敬请期待。

调用歌曲识别的哼唱接口可以得到哼唱歌曲的一组歌名和歌手。该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景,即将音频一次性发送至云端,块式传输。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域。

# 接口Demo

示例demo请点击 这里 下载。
目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。

# 接口要求

集成歌曲识别API时,需按照以下要求。

内容 说明
请求协议 http[s] (为提高安全性,强烈推荐https)
请求地址 http[s]: //webqbh.xfyun.cn/v1/service/v1/qbh
注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用
请求方式 POST
接口鉴权 签名机制,见授权认证
字符编码 UTF-8
响应格式 统一采用JSON格式
开发语言 任意,只要可以向讯飞云服务发起HTTP请求的均可
适用范围 任意操作系统,但因不支持跨域不适用于浏览器,请在后端调用接口
音频属性 采样率16k或8k、位长16bit、单声道
音频格式 PCM、WAV、AAC,样例音频可点击 这里 下载
音频大小 不超过2M

# 接口调用流程

注: 调用接口前需配置IP白名单,IP白名单规则请参照 IP白名单

  1. 通过接口密钥基于MD5计算签名,将签名以及其他参数放在Http Request Header中,详见下方 请求头
  2. 将音频数据放在Http Request Body中,以POST表单的形式提交,详见下方 请求体
  3. 向服务器端发送Http请求后,接收服务器端的返回结果,返回结果详见各接口的详细说明。

接口地址示例:

	POST http[s]://webqbh.xfyun.cn/v1/service/v1/qbh

# 白名单

在调用该业务接口时,授权认证通过后,服务端会检查调用方IP是否在讯飞开放平台配置的IP白名单中,对于没有配置到白名单中的IP发来的请求,服务端会拒绝服务。
注:

  • IP白名单,在 控制台-我的应用-相应服务的应用管理卡片上 编辑,保存后五分钟左右生效;
  • 不同Appid的不同服务都需要分别设置IP白名单;
  • 每个IP白名单最多可设置5个IP,IP为外网IP,请勿设置局域网IP;
  • 如果服务器返回结果如下所示(illegal client_ip),则表示由于未配置IP白名单或配置有误,服务端拒绝服务。解决办法请参考 IP白名单问题汇总
{
    "code":"10105",
    "desc":"illegal access|illegal client_ip",
    "data":"",
    "sid":"xxxxxx"
}

# 接口请求参数

# 请求头

Http Request Header 中配置以下参数。

# 授权认证

以下参数用于授权认证:

参数 格式 说明 必须
X-Appid string 讯飞开放平台注册申请应用的应用ID(appid)
X-CurTime string 当前UTC时间戳
从1970年1月1日0点0 分0 秒开始到现在的秒数
X-Param string 相关参数JSON串经Base64编码后的字符串,详见业务参数
X-CheckSum string 令牌,计算方法:MD5(APIKey + X-CurTime + X-Param),三个值拼接的字符串,进行MD5哈希计算(32位小写)

注:

  • APIKey:接口密钥,在讯飞开放平台控制台添加相应服务后即可获取,调用方注意保管,如泄露,可到控制台提交工单联系技术人员重置;
  • X-CheckSum 有效期:出于安全性考虑,每个 X-CheckSum 的有效期为 5 分钟(用 X-CurTime 计算),同时 X-CurTime 要与标准时间同步,否则时间相差太大,服务端会直接认为 X-CurTime 无效;
  • BASE64 编码采用 MIME 格式,字符包括大小写字母各26个,加上10个数字,和加号 + ,斜杠 / ,一共64个字符。

*X-CheckSum *生成示例:

String APIKey="abcd1234"; 
String X-CurTime="1502607694";
String X-Param="eyAiYXVmIjogImF1ZGlvL0wxNjtyYXR...";
String X-CheckSum=MD5(apiKey + X-CurTime + X-Param);

# 业务参数

X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串,原始 JSON 串各字段说明如下:

参数 类型 必须 说明 示例
engine_type string 引擎类型,可选值:afs(哼唱) afs
aue string 音频编码,可选值:raw(pcm、wav格式)、aac,默认raw raw
sample_rate string 采样率,可选值:8000、16000,默认16000,aue是aac,sample_rate必须是8000 8000
audio_url string 哼唱音频存放地址url 示例

X-Param生成示例:

	原始JSON串:
	{
	    "aue": "raw""sample_rate":"16000"
	}
	BASE64编码(即X-Param):
	eyJlbmdpbmVfdHlwZSI6InNtczE2ayIsImF1ZSI6InJhdyJ9

# 请求体

以POST表单的形式提交以下参数:

将音频流二进制数据写入 Http Request Body 中

注: 音频数据可以通过两种方式进行传输。
1)客户端传输一个audio_url参数,服务端根据传输的audio_url去获取哼唱音频数据;
2)直接把哼唱音频二进制数据写入到Http Request Body中,通过http请求发送给服务端;
如果有audio_url参数则根据这个参数去获取音频数据而不会从http body中去取数据,只有当没有传audio_url参数,才会从http body中去取数据。
不论是上述哪种方式,音频大小都需要控制在2M以内,否则服务会报错10109。

# 接口返回参数

返回值为 json 串,各字段如下:

参数 类型 说明
code string 结果码(具体见SDK&API错误码查询)
data array 哼唱检索结果
desc string 描述
sid string 会话ID

其中 sid 字段主要用于追查问题,如果出现问题,可以提供 sid 给讯飞技术人员帮助确认问题。

示例如下:

失败:

    {
	    "code":"10107",
	    "data":[],
	    "desc":"illegal parameter|10107",
	    "sid":"wbh00000003@ch25a90e5dac692a0100"
	}

成功:

	{
	    "code":"0",
	    "data":[
	        {
	            "song":"千里之外",
	            "song_id":"6433782",
	            "singer":"周杰伦",
	            "singer_id":"313264",
	            "start_time":245,
	            "end_time":33340
	        },
	        {
	            "song":"千里之外",
	            "song_id":"5233627",
	            "singer":"刘芳",
	            "singer_id":"347675",
	            "start_time":1200,
	            "end_time":16440
	        },
	        {
	            "song":"千里之外",
	            "song_id":"5625263",
	            "singer":"费玉清",
	            "singer_id":"278025",
	            "start_time":1350,
	            "end_time":18290
	        }
	    ],
	    "desc":"success",
	    "sid":"wbh00000eff@ch676e0e61c4562a0100"
	}

# 调用示例

歌曲识别demo go语言

歌曲识别demo php语言

歌曲识别demo java语言

歌曲识别demo python3语言

歌曲识别demo c#语言

# 音频样例

歌曲识别 音频样例 一次就好 WAV文件 采样率16k

歌曲识别 音频样例 一次就好 WAV文件 采样率8k

注: 音频文件格式转换工具请参考这里 音频格式说明

# 常见问题

# 歌曲识别的主要功能是什么?

答:歌曲识别技术分为歌曲原声识别以及哼唱识别。歌曲原声识别通过听筒收集音乐播放信息,生成音频指纹,在曲库中识别到对应的歌曲。 哼唱识别通过用户对着话筒哼唱小段歌曲,系统自动识别并检索出所哼唱的歌曲。

# 歌曲识别支持什么应用平台?

答:目前歌曲识别只支持Web API应用平台。

# 歌曲识别如何试用?免费次数是多少?

答:可以的,登录讯飞开放平台---控制台---我的应用(没有应用先创建一个应用)---语音扩展---歌曲识别(可免费调用Web api接口500次服务量)。