# 配置信息
例如:
APPID: xxxxxxxxxxxxxxx
TOKEN: xxxxxxxxxxxxxxx
EncodingAESKey: xxxxxxxxxxxxxxx
# 接口信息
词法分析,提供粗细两种粒度的分词结果,并可根据选项开启词性标注和专名识别功能
# 词法分析接口(只签名不加密):
https://chatbot.weixin.qq.com/openapi/nlp/tokenize/TOKEN
接口类型:
POST请求
# 参数说明:
字段 | 类型 | 默认值 | 描述 |
---|---|---|---|
query | string | 使用JWT签名后的数据 |
query签名说明:
字段 | 类型 | 默认值 | 描述 |
---|---|---|---|
uid | string | 自动生成的随机标识 | 用户标识的唯一ID,比如:openid |
data | Object | {q: "输入文本"} |
使用JSON Web Token的 HS256
算法对参数进行encode, 放入到query参数中
比如参数为
{
uid: "xjlsj33lasfaf", //能标识用户的唯一用户id,可以是openid
data: {
q: "在微信智言与微信智聆两大技术的支持下,微信AI团队推出了“微信对话开放平台”和“腾讯小微”智能硬件两大核心产品。微信支付团队最新发布的“微信青蛙Pro”在现场设置了体验区,让大家感受AI认脸的本事。"
}
}
使用 jwt 和 EncodingAESKey
对数据对象进行encode得到加密字符串
const signedData = jwths256.encode(EncodingAESKey, {
uid: "xjlsj33lasfaf", //能标识用户的唯一用户id,可以是openid
data: {
q: 微信智言与微信智聆两大技术的支持下,微信AI团队推出了“微信对话开放平台”和“腾讯小微”智能硬件两大核心产品。微信支付团队最新发布的“微信青蛙Pro”在现场设置了体验区,让大家感受AI认脸的本事。"
}
}
)
# 调用开放平台语义接口
curl -XPOST -d "query=signedData" https://chatbot.weixin.qq.com/openapi/nlp/tokenize/TOKEN
Tips: 在 jsonwebtoken.io 网站上可以参考如下步骤手动生成signedData
# 返回值说明:
字段 | 类型 | 描述 |
---|---|---|
words | Array | 字符串数组,常规粒度分词结果 |
POSs | Array | 整数数组,词性标签,与 words 按下标对应 |
words_mix | Array | 字符串数组,混合粒度分词结果 |
POSs_mix | Array | 整数数组,词性标签,与 words_mix 按下标对应,定义同 POSs |
entities | Array | 字符串数组,短语提取结果,可能为空 |
entity_types | Array | 整数数组,短语类型标签,与 entities 按下标对应 |
# 返回格式:
{
"words": [
"在", "微信", "智", "言", "与", "微信", "智", "聆", "两", "大", "技术", "的", "支持", "下", ",", "微信", "ai", "团队", "推出", "了", "“", "微信", "对话", "开放", "平台", "”", "和", "“", "腾讯", "小", "微", "”", "智能", "硬件", "两", "大", "核心", "产品", "。", "微信", "支付", "团队", "最新", "发布", "的", "“", "微信", "青蛙", "pro", "”", "在", "现场", "设置", "了", "体验", "区", ",", "让", "大家", "感受", "ai", "认", "脸", "的", "本事", "。"
],
"POSs": [
25, 16, 16, 46, 25, 16, 16, 46, 15, 1, 16, 30, 33, 8, 34, 31, 23, 16, 31, 36, 34, 16, 33, 33, 16, 34, 5, 34, 6, 1, 38, 34, 16, 16, 15, 1, 16, 16, 34, 6, 31, 16, 1, 31, 30, 34, 31, 16, 23, 34, 25, 28, 31, 30, 33, 16, 34, 31, 27, 31, 23, 31, 16, 30, 16, 34
],
"words_mix": [
"在", "微信", "智", "言", "与", "微信", "智", "聆", "两", "大", "技术", "的", "支持", "下", ",", "微信", "ai", "团队", "推出", "了", "“", "微信", "对话", "开放", "平台", "”", "和", "“", "腾讯", "小微", "”", "智能", "硬件", "两", "大", "核心", "产品", "。", "微信", "支付", "团队", "最新", "发布", "的", "“", "微信", "青蛙", "pro", "”", "在", "现场", "设置", "了", "体验", "区", ",", "让", "大家", "感受", "ai", "认", "脸", "的", "本事", "。"
],
"POSs_mix": [
25, 16, 16, 46, 25, 16, 16, 46, 15, 1, 16, 30, 33, 8, 34, 31, 23, 16, 31, 36, 34, 16, 33, 33, 16, 34, 5, 34, 6, 16, 34, 16, 16, 15, 1, 16, 16, 34, 6, 31, 16, 1, 31, 30, 34, 31, 16, 23, 34, 25, 28, 31, 30, 33, 16, 34, 31, 27, 31, 23, 31, 16, 30, 16, 34
],
"entities": [
"腾讯", "小微", "最新发布"
],
"entity_types": [
100000013, 0, 0
]
}
# 分词词性:
POSs | 词性 |
---|---|
1 | 形容词 |
2 | 副形词 |
3 | 名形词 |
4 | 区别词 |
5 | 连词 |
6 | 副词 |
7 | 叹词 |
8 | 方位词 |
9 | 语素词 |
10 | 前接成分 |
11 | 成语 |
12 | 简称略语 |
13 | 后接成分 |
14 | 习用语 |
15 | 数词 |
16 | 名词 |
17 | 人名 |
18 | 姓 |
19 | 名 |
20 | 地名 |
21 | 机构团体 |
22 | 其他专[m |
23 | 非汉字串 |
24 | 拟声词 |
25 | 介词 |
26 | 量词 |
27 | 代词 |
28 | 处所词 |
29 | 时间词 |
30 | 助词 |
31 | 动词 |
32 | 副动词 |
33 | 名动词 |
34 | 标点符号 |
35 | 非语素字 |
36 | 语气词 |
37 | 状态词 |
38 | 形语素 |
39 | 区别语素 |
40 | 副语素 |
41 | 数词性语素 |
42 | 名语素 |
43 | 量语素 |
44 | 代语素 |
45 | 时语素 |
46 | 动语素 |
47 | 语气词语素 |
48 | 状态词语素 |
49 | 开始词 |
55 | 结束词 |
0 | 未知词性 |
50 | URL |
51 | 电话号码 |
52 |
# 实体类别
entity_types | 短语类型标签 |
---|---|
100000010 | 中国人名 |
100000011 | 外国人名 |
100000012 | 地名 |
100000013 | 机构名 |
100000014 | 影视,包括电影、电视剧、卡通动漫、节目 |
100000015 | 小说,包括书籍、漫画 |
100000016 | 软件 |
100000017 | 游戏,包括单机游戏、网络游戏、手机游戏、网页游戏 |
100000018 | 音乐,包括歌曲、专辑 |
100000019 | 菜谱 |
100000020 | 疾病 |
100000021 | 药品 |
100000022 | 汽车 |
100000023 | 时间节日 |
100000200 | |
100000201 | 未知类别的实体 |
100000202 | |
100000301 | 音乐:下载地址 |
100000302 | 音乐:乐器 |
100000303 | 音乐:风格 |
100000304 | 音乐:歌曲 |
100000305 | 音乐:歌词 |
100000306 | 音乐:专辑 |
100000307 | 人名:乐队 |
100000308 | 地名:景点 |
100000309 | 地名:山 |
100000310 | 地名:湖 |
100000311 | 影视:电影 |
100000312 | 影视:电视剧 |
100000313 | 影视:综艺节目 |
100000314 | 数字 |
100000315 | 序数 |
100000316 | 民族 |
100000317 | 百科通用类别 |
0 | 其他短语 |