配置信息

例如:

APPID: xxxxxxxxxxxxxxx

TOKEN: xxxxxxxxxxxxxxx

EncodingAESKey: xxxxxxxxxxxxxxx

接口信息

词法分析,提供粗细两种粒度的分词结果,并可根据选项开启词性标注和专名识别功能

词法分析接口(只签名不加密):

https://openai.weixin.qq.com/openapi/nlp/tokenize/TOKEN

接口类型:

POST请求

参数说明:

字段 类型 默认值 描述
query string 使用JWT签名后的数据

query签名说明:

字段 类型 默认值 描述
uid string 自动生成的随机标识 用户标识的唯一ID,比如:openid
data Object {q: "输入文本"}

使用JSON Web TokenHS256 算法对参数进行encode, 放入到query参数中

比如参数为

{
  uid: "xjlsj33lasfaf", //能标识用户的唯一用户id,可以是openid
  data: {
    q: "在微信智言与微信智聆两大技术的支持下,微信AI团队推出了“微信对话开放平台”和“腾讯小微”智能硬件两大核心产品。微信支付团队最新发布的“微信青蛙Pro”在现场设置了体验区,让大家感受AI认脸的本事。"
  }
}

使用 jwt 和 EncodingAESKey 对数据对象进行encode得到加密字符串

const signedData = jwths256.encode(EncodingAESKey, {
      uid: "xjlsj33lasfaf", //能标识用户的唯一用户id,可以是openid
      data: {
         q: 微信智言与微信智聆两大技术的支持下,微信AI团队推出了“微信对话开放平台”和“腾讯小微”智能硬件两大核心产品。微信支付团队最新发布的“微信青蛙Pro”在现场设置了体验区,让大家感受AI认脸的本事。"
      }
    }
)

调用开放平台语义接口

curl -XPOST -d "query=signedData" https://openai.weixin.qq.com/openapi/nlp/tokenize/TOKEN

https://www.jsonwebtoken.io/

Tips: 在 jsonwebtoken.io 网站上可以参考如下步骤手动生成signedData 手动生成signedData示例

返回值说明:

字段 类型 描述
words Array 字符串数组,常规粒度分词结果
POSs Array 整数数组,词性标签,与 words按下标对应
words_mix Array 字符串数组,混合粒度分词结果
POSs_mix Array 整数数组,词性标签,与 words_mix按下标对应,定义同 POSs
entities Array 字符串数组,短语提取结果,可能为空
entity_types Array 整数数组,短语类型标签,与 entities按下标对应

返回格式:

{
  "words": [
    "在", "微信", "智", "言", "与", "微信", "智", "聆", "两", "大", "技术", "的", "支持", "下", ",", "微信", "ai", "团队", "推出", "了", "“", "微信", "对话", "开放", "平台", "”", "和", "“", "腾讯", "小", "微", "”", "智能", "硬件", "两", "大", "核心", "产品", "。", "微信", "支付", "团队", "最新", "发布", "的", "“", "微信", "青蛙", "pro", "”", "在", "现场", "设置", "了", "体验", "区", ",", "让", "大家", "感受", "ai", "认", "脸", "的", "本事", "。"
  ],
  "POSs": [
    25, 16, 16, 46, 25, 16, 16, 46, 15, 1, 16, 30, 33, 8, 34, 31, 23, 16, 31, 36, 34, 16, 33, 33, 16, 34, 5, 34, 6, 1, 38, 34, 16, 16, 15, 1, 16, 16, 34, 6, 31, 16, 1, 31, 30, 34, 31, 16, 23, 34, 25, 28, 31, 30, 33, 16, 34, 31, 27, 31, 23, 31, 16, 30, 16, 34
  ],
  "words_mix": [
    "在", "微信", "智", "言", "与", "微信", "智", "聆", "两", "大", "技术", "的", "支持", "下", ",", "微信", "ai", "团队", "推出", "了", "“", "微信", "对话", "开放", "平台", "”", "和", "“", "腾讯", "小微", "”", "智能", "硬件", "两", "大", "核心", "产品", "。", "微信", "支付", "团队", "最新", "发布", "的", "“", "微信", "青蛙", "pro", "”", "在", "现场", "设置", "了", "体验", "区", ",", "让", "大家", "感受", "ai", "认", "脸", "的", "本事", "。"
  ],
  "POSs_mix": [
    25, 16, 16, 46, 25, 16, 16, 46, 15, 1, 16, 30, 33, 8, 34, 31, 23, 16, 31, 36, 34, 16, 33, 33, 16, 34, 5, 34, 6, 16, 34, 16, 16, 15, 1, 16, 16, 34, 6, 31, 16, 1, 31, 30, 34, 31, 16, 23, 34, 25, 28, 31, 30, 33, 16, 34, 31, 27, 31, 23, 31, 16, 30, 16, 34
  ],
  "entities": [
    "腾讯", "小微", "最新发布"
  ],
  "entity_types": [
    100000013, 0, 0
  ]
}

分词词性:

POSs 词性
1 形容词
2 副形词
3 名形词
4 区别词
5 连词
6 副词
7 叹词
8 方位词
9 语素词
10 前接成分
11 成语
12 简称略语
13 后接成分
14 习用语
15 数词
16 名词
17 人名
18
19
20 地名
21 机构团体
22 其他专[m
23 非汉字串
24 拟声词
25 介词
26 量词
27 代词
28 处所词
29 时间词
30 助词
31 动词
32 副动词
33 名动词
34 标点符号
35 非语素字
36 语气词
37 状态词
38 形语素
39 区别语素
40 副语素
41 数词性语素
42 名语素
43 量语素
44 代语素
45 时语素
46 动语素
47 语气词语素
48 状态词语素
49 开始词
55 结束词
0 未知词性
50 URL
51 电话号码
52 email

实体类别

entity_types 短语类型标签
100000010 中国人名
100000011 外国人名
100000012 地名
100000013 机构名
100000014 影视,包括电影、电视剧、卡通动漫、节目
100000015 小说,包括书籍、漫画
100000016 软件
100000017 游戏,包括单机游戏、网络游戏、手机游戏、网页游戏
100000018 音乐,包括歌曲、专辑
100000019 菜谱
100000020 疾病
100000021 药品
100000022 汽车
100000023 时间节日
100000200
100000201 未知类别的实体
100000202
100000301 音乐:下载地址
100000302 音乐:乐器
100000303 音乐:风格
100000304 音乐:歌曲
100000305 音乐:歌词
100000306 音乐:专辑
100000307 人名:乐队
100000308 地名:景点
100000309 地名:山
100000310 地名:湖
100000311 影视:电影
100000312 影视:电视剧
100000313 影视:综艺节目
100000314 数字
100000315 序数
100000316 民族
100000317 百科通用类别
0 其他短语