# 音频处理

小微支持多种唤醒和静音检测模式，设备可以灵活切换云端和本地的静音检测功能。同时支持唤醒连说(One-Shot)模式，支持用户可以在说出唤醒词之后不作停顿，立刻说出后续需求，简化了交互流程。对于硬件端无法准确拆分唤醒词和语音请求的场景，小微支持云端去除唤醒词模式。

wakeup1

wakeup2

# 1、本地唤醒

一般唤醒受到多方面因素的影响，比如设备端麦克风阵列、降噪、回声消除效果等。目前通用的唤醒模块还无法保证极高的唤醒成功率，同时较低的误唤醒率。小微提供经过认证的唤醒合作伙伴，来协助完成唤醒能力的集成。具体可通过邮件咨询相关商务合作。 xiaowei_bd@tencent.com

小微提供云端误唤醒过滤功能，即设备本地唤醒后，上传用户query音频给到小微云端二次检验，判断是否为有效唤醒，降低误唤醒概率。即模式2中的唤醒失败case。

One-Shot功能采用本地+云端混合引擎模式，得以实现用户唤醒词+Query请求连续说出后，也能正常相应识别。这种模式下，设备端需要上传通过拼接后的唤醒音频+唤醒后音频。如：

小微提供了云端VAD能力，同时也支持设备使用自己本地的VAD。例如，设备端通过按键进行push to talk的对话方式，当松开按键后，触发本地VAD即可。一般的，我们建议使用云端VAD，而非本地的VAD模型，这样准确性更高。

小微目前只支持识别16位16KHz单声道的pcm音频数据，在识别的时候，不会对声音进行其他处理，所以需要设备端在硬件和软件层自行进行降噪和回声消除。为了加快响应速度，我们需要将语音流式的上传到小微后台进行识别，之后后台会返回识别的中间结果。

目前小微只支持带有“小微”特色的固定音色。通过SDK或设备APP的方式向后台发起请求，在黄反通过后，以临时URL的形式返回。