java调用Hanlp分词器获取词性；自定义词性字典

2024-01-08 04:08:17

若解读用户输入的一段话，找出输入内容的构成（名词、动词、形容词、地名、人名等）以便进一步的处理。

一、配置pom，导包：

   <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
   </dependency>

二、java代码实现分词：

/***

* hanlp分词

* @param input

*/

public static Map<String, String> getOut(String input){

Map<String, String> resMap = new HashMap<>();


Segment segment = HanLP.newSegment(); //使用Hanlp分词

List<Term> termList = segment.seg(input);


//遍历分词结果

for (Term term : termList) {

String word = term.toString().substring(0, term.length()); //词

String nature = term.toString().substring(term.length() + 1); //词性

if (StringUtils.isNotBlank(word) && StringUtils.isNotBlank(nature)) {

//将词及词性放到Map结果集中

resMap.put(word, nature);

}

}

return resMap;

}


public static void main(String[] args) {

 Map<String, String> out = getOut("我爱吃薯片，它是红薯油炸而来的，紫罗兰熊猫");

System.out.println("out = " + out);

}

运行结果：

out = {紫罗兰=n, 红薯=n, 它=rr, 的=ude1, 来=vf, 薯片=nf, ，=w, 而=cc, 是=vshi, 熊猫=n, 我=rr, 油炸=v, 爱吃=v}

对照hanlp的词性表，得到每个词的词性：

符号	描述
a	形容词
ad	副形词
ag	形容词性语素
al	形容词性惯用语
an	名形词
b	区别词
begin	仅用于始##始
bg	区别语素
bl	区别词性惯用语
c	连词
cc	并列连词
d	副词
dg	辄,俱,复之类的副词
dl	连语
e	叹词
end	仅用于终##终
f	方位词
g	学术词汇
gb	生物相关词汇
gbc	生物类别
gc	化学相关词汇
gg	地理地质相关词汇
gi	计算机相关词汇
gm	数学相关词汇
gp	物理相关词汇
h	前缀
i	成语
j	简称略语
k	后缀
l	习用语
m	数词
mg	数语素
Mg	甲乙丙丁之类的数词
mq	数量词
n	名词
nb	生物名
nba	动物名
nbc	动物纲目
nbp	植物名
nf	食品，比如“薯片”
ng	名词性语素
nh	医药疾病等健康相关名词
nhd	疾病
nhm	药品
ni	机构相关（不是独立机构名）
nic	下属机构
nis	机构后缀
nit	教育相关机构
nl	名词性惯用语
nm	物品名
nmc	化学品名
nn	工作相关名词
nnd	职业
nnt	职务职称
nr	人名
nr1	复姓
nr2	蒙古姓名
nrf	音译人名
nrj	日语人名
ns	地名
nsf	音译地名
nt	机构团体名
ntc	公司名
ntcb	银行
ntcf	工厂
ntch	酒店宾馆
nth	医院
nto	政府机构
nts	中小学
ntu	大学
nx	字母专名
nz	其他专名
o	拟声词
p	介词
pba	介词“把”
pbei	介词“被”
q	量词
qg	量词语素
qt	时量词
qv	动量词
r	代词
rg	代词性语素
Rg	古汉语代词性语素
rr	人称代词
ry	疑问代词
rys	处所疑问代词
ryt	时间疑问代词
ryv	谓词性疑问代词
rz	指示代词
rzs	处所指示代词
rzt	时间指示代词
rzv	谓词性指示代词
s	处所词
t	时间词
tg	时间词性语素
u	助词
ud	助词
ude1	的底
ude2	地
ude3	得
udeng	等等等云云
udh	的话
ug	过
uguo	过
uj	助词
ul	连词
ule	了喽
ulian	连（“连小学生都会”）
uls	来讲来说而言说来
usuo	所
uv	连词
uyy	一样一般似的般
uz	着
uzhe	着
uzhi	之
v	动词
vd	副动词
vf	趋向动词
vg	动词性语素
vi	不及物动词（内动词）
vl	动词性惯用语
vn	名动词
vshi	动词“是”
vx	形式动词
vyou	动词“有”
w	标点符号
wb	百分号千分号，全角：％ ‰ 半角：%
wd	逗号，全角：，半角：,
wf	分号，全角：；半角： ;
wh	单位符号，全角：￥＄￡ ° ℃ 半角：$
wj	句号，全角：。
wky	右括号，全角：）〕］｝》】〗〉半角： ) ] { >
wkz	左括号，全角：（〔［｛《【〖〈半角：( [ { <
wm	冒号，全角：：半角： :
wn	顿号，全角：、
wp	破折号，全角：—— －－ ——－半角：— —-
ws	省略号，全角：…… …
wt	叹号，全角：！
ww	问号，全角：？
wyy	右引号，全角：” ’ 』
wyz	左引号，全角：“ ‘ 『
x	字符串
xu	网址URL
xx	非语素字
y	语气词(delete yg)
yg	语气语素
z	状态词
zg	状态词

三、到这基本的分词及词性已经获取到了，但是又发现这样得到的词性都是固定的，像我输入的这段话"请问怎么哪家公司有边缘计算相关的项目?"中，"边缘计算"被分成了"边缘"（n-名词）、"计算"（v-动词）,但是业务需求是"边缘计算"属于某些项目的业务标签，定义在系统的字典表中，这时就要自定义hanlp的词性了。

查了一些文章，基本都是导入一个自定义的txt文件，文件中定义词及词性，但是我这里是通过maven引用的hanlp包，而且自定义的词性也不是固定的，而是从系统的字典表中动态读取的。于是有了以下代码：

/***

* hanlp分词

* @param input

*/

public static Map<String, String> getOut(String input){

Map<String, String> resMap = new HashMap<>();

//使用Hanlp分词;允许用户自定义词性字典

Segment segment = HanLP.newSegment().enableCustomDictionary(true);


//添加自定义词性(此处添加了一个词做测试；真实业务中是读取字典表中的词并添加到自定义词性)

//其中"zingyidongwu"是自定义的词性

CustomDictionary.add("紫罗兰熊猫","zingyidongwu");


List<Term> termList = segment.seg(input);

//遍历分词结果

for (Term term : termList) {

String word = term.toString().substring(0, term.length()); //词

String nature = term.toString().substring(term.length() + 1); //词性

if (StringUtils.isNotBlank(word) && StringUtils.isNotBlank(nature)) {

//将词及词性放到Map结果集中

resMap.put(word, nature);

}

}

return resMap;

}


public static void main(String[] args) {

Map<String, String> out = getOut("我爱吃薯片，它是红薯油炸而来的，紫罗兰熊猫");


System.out.println("out = " + out);

}

运行结果：

out = {紫罗兰熊猫=n, 红薯=n, 它=rr, 的=ude1, 来=vf, 薯片=nf, ，=w, 而=cc, 是=vshi, , 我=rr, 油炸=v, 爱吃=v}

可以看到，这次的分词结果中，"边缘计算"没有被拆分，而且词性也变成了自定义的"ywbq"词性。

文章来源:https://blog.csdn.net/zhaofuqiangmycomm/article/details/135412770
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！