# 评测指南

# 一、评测工具介绍

在微信小程序 AI 开发模式开发过程中，很多开发者会遇到 SKILLs 表现不符合预期、调试难度大、排查问题耗时久的痛点。为帮助大家快速解决这一难题，推出 SKILLs 评测工具，可基于已生成的原子接口、原子组件，模拟真实用户对话完成效果评测，自动分析问题、提供优化建议并输出完整评测报告。

当前暂未开放小程序 AI 模式的代码提审。开发者可使用「评测 SKILLs」进行自测，自测结果不能用于审核。微信团队后续会发布评测提审工具及评测通过标准。

1. 开发者全流程示意图:

2. 评测报告示例:

# 二、核心价值

本评测工具可帮助解决这些痛点：

高效省时： 选取多条测试用例；分批输出结果，避免长时等待
模拟真实对话场景： 基于已生成的原子接口与组件，自动模拟用户交互过程，还原实际运行环境，发现问题
问题精准定位： 评测完成后自动生成多维度评测报告，清晰呈现问题所在及优化方向，包含：通过率、缺陷及改进建议、接口覆盖率、文档质量、组件信息等

# 三、使用方法

⚠️ 在使用「评测 SKILLs」（wxa-skills-eval）前，必须在微信开发者工具上进行设置：手动打开工具->设置->安全设置，将服务端口开启。

# 1. 安装 wxa-skill-eval

下载链接： wxa-skills-eval 0.1.17
下载后按说明安装到 Coding Agent（例如 CodeBuddy 等工具）的 SKILLs 目录，安装成功后即可在对话中通过自然语言触发。

# 2. 模型配置（配置.env）

评测工具需要模型资源来生成对话驱动测试，并且对对话轨迹质量（准确度、体验等）进行评测，因此需要配置模型资源，开发者自行选择模型资源，给 Coding Agent 发送模型配置格式为：

BASE_URL: <模型 url>
API_KEY:  <模型调用 key>
MODEL: <模型名字>

# 3. 添加自定义评测集（可选）

评测工具会根据开发者的实现来自动构造各种对话意图，但如果开发者想添加更贴近自己业务的测评，可以编写自定义评测集，在发起评测时添加，评测集格式示例：

{
  "cases": [
    { "intent": "我驾照现在还剩多少分？这个记分周期被扣了几分了？" },
    { "intent": "这个记分周期我已经被扣几分了？什么时候清零？" },
    { "intent": "我的驾照分什么时候清零？下个记分周期从哪天开始？" },
    { "intent": "我驾照啥时候到期？是不是快过期了，还能开车吗？" },
    { "intent": "帮我看下我驾照现在状态正常吗？有没有被扣留、吊销或注销？" }
  ]
}

按此内容保存成 Json 文件，然后在下方红框界面上添加。

# 4. 自定义 checklist（可选）

评测工具会根据意图来自动构造各种 checklist，但开发者有自己的需要，也支持自定义 checklist，在自定义评测集文件条目中上传，上传格式如下：

{
  "cases": [
    {
      "intent": "case1",
      "checklist": [
        {
          "evidence": "是否...",
          "scoring_criteria": {
            "1.0": "展示授权卡片/授权按钮引导用户完成连接，或明确说明账号已授权可继续使用。",
            "0.5": "提及需要授权但引导不完整，用户难以完成下一步操作。",
            "0.0": "无任何授权相关引导，或对话无响应/直接结束。"
          }
        }
      ]
    }
  ]
}

按此内容保存成 Json 文件，然后在下方红框界面上添加。

# 5. 进行评测

填写开发者工具路径及小程序项目目录，让 Coding Agent 进行评测。（如：使用 wxa-skill-eval 评测这个小程序，项目路径：/path/to/weather，建议每个 SKILL 跑至少 30 条 case，以保证覆盖率，导出到 /path/to/eval_output）

# 6. 评测中

拉起评测进度页面

# 7. 输出报告

运行完成后打开 <workdir>/eval_report.html，即可看到评测报告

# 四、过程展示

澄清需要评测
填写用于评测的模型配置
评测完成并产出报告
评测报告

# 五、注意事项

评测 SKILLs 需要开发者自行配置模型信息，开发者需在自己的 Coding Agent 中输入对应的模型配置信息，该信息微信团队不会获取。建议使用较高智能度、参数量较大的模型来进行评测，模型智能度越高，评测质量会越好。
建议开发者提前准备好需要跑评测的微信测试号，该微信测试号需要包含各类业务流程信息（如登录权限、业务数据等），建议提前使用该账号登录微信开发者工具。
「下单」「支付」「发票」等接口需特别关注，为避免真实资金损失，建议使用测试号进行测试，关闭免密支付等能力。
半屏页面、卡片最大化、卡片操作相关评测，暂未支持，我们会尽快支持相关能力上线。
评测 SKILLs 已支持开发者上传评测集，详见3.3。
评测 SKILLs 已支持支持自定义 checklist，详见3.4。
人脸识别类业务，需要开发者本人在开发者工具手动操作扫码识别（该动作会中断评测任务，完成人脸识别后可继续进行）。
图片（如 P 图）、文件操作类（如文件转化）类业务，如果开发者配置的模型本身不支持对图形、文件类的分析，则无法评估效果，需要开发者自行真机测试。硬件类业务，部分配网、控制设备场景不支持评测。
该评测 SKILLs 仅用于开发者自测。