# 音频处理

小微支持多种唤醒和静音检测模式,设备可以灵活切换云端和本地的静音检测功能。同时支持唤醒连说(One-Shot)模式,支持用户可以在说出唤醒词之后不作停顿,立刻说出后续需求,简化了交互流程。对于硬件端无法准确拆分唤醒词和语音请求的场景,小微支持云端去除唤醒词模式。

# 模式1,普通语音请求

wakeup1

# 模式2,云端校验唤醒词和One-shot模式

wakeup2

# 1、本地唤醒

一般唤醒受到多方面因素的影响,比如设备端麦克风阵列、降噪、回声消除效果等。目前通用的唤醒模块还无法保证极高的唤醒成功率,同时较低的误唤醒率。 小微提供经过认证的唤醒合作伙伴,来协助完成唤醒能力的集成。具体可通过邮件咨询相关商务合作。 xiaowei_bd@tencent.com

# 2、云端误唤醒过滤

小微提供云端误唤醒过滤功能,即设备本地唤醒后,上传用户query音频给到小微云端二次检验,判断是否为有效唤醒,降低误唤醒概率。即模式2中的唤醒失败case。

# 3、唤醒连说(One-Shot)

One-Shot功能采用本地+云端混合引擎模式,得以实现用户唤醒词+Query请求连续说出后,也能正常相应识别。这种模式下,设备端需要上传通过拼接后的唤醒音频+唤醒后音频。如:

  • 断开说:“小微小微,天气怎么样?”(说完小微小微后触发模式2唤醒成功没有连着说的case,此时设备端再发起一轮模式1的普通请求即可)
  • 连续说(One-Shot):“小微小微天气怎么样?”(模式2直接收到结果的case)

# 4、静音检测VAD

小微提供了云端VAD能力,同时也支持设备使用自己本地的VAD。例如,设备端通过按键进行push to talk的对话方式,当松开按键后,触发本地VAD即可。一般的,我们建议使用云端VAD,而非本地的VAD模型,这样准确性更高。

# 语音识别(ASR)

小微目前只支持识别16位16KHz单声道的pcm音频数据,在识别的时候,不会对声音进行其他处理,所以需要设备端在硬件和软件层自行进行降噪和回声消除。为了加快响应速度,我们需要将语音流式的上传到小微后台进行识别,之后后台会返回识别的中间结果。

# 语音合成输出(TTS)

目前小微只支持带有“小微”特色的固定音色。通过SDK或设备APP的方式向后台发起请求,在黄反通过后,以临时URL的形式返回。