前言
以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用api, 关于这个的分词工具的原理介绍,我推荐一个好的博客:
http://blog.csdn.net/daniel_ustc/article/details/48195287.
随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地不让我做中文分词处理(老报错).无奈之下,我只能使用第三方的分词工具.由于standford的源码是java,我寻找了一个与之对应的分词工具,即hanlp.
hanlp的安装使用
hanlp的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客:
http://m.blog.csdn.net/article/details?id=50938796
不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的安装使用.
安装eclipse
在终端输入 sudo get-apt install eclipse-platform实现一键安装,然后在应用程序找到eclipse
下载hanlp
访问hanlp的官方网址:http://hanlp.linrunsoft.com/services.html
分别下载hanlp.jar(程序包), data.zip(词典库),hanlp.properties(配置文件),而后面是说明文档,可以不下载
在下载的data.zip的时候,下载链接有点隐晦,点击蓝色的data-for-1.2.11.zip,就会出现百度云链接啦
导入jar包
导入hanlp到eclipse之中,具体的流程可以参照网址:
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
导入配置文件
将hanlp.propertie复制至项目的bin目录中,修改词典的路径
将root的路径修改至data保存的路径(记得data要解压)
编程代码示范
import java.util.list;
import com.hankcs.hanlp.hanlp;
import com.hankcs.hanlp.seg.segment;
import com.hankcs.hanlp.seg.common.term;
public class demohanlp {
public static void main(string[] agrs){
string sentence = 大家好, 我的名字叫作quincy.;
segment segment = hanlp.newsegment();
list termlist = segment.seg(sentence);
for(term term : termlist){
system.out.print(term+ );
}
}
}
运行结果:
文章来源于quincy1994的博客
称重传感器的特点以及应用介绍
谷歌AR系统负责人离职的原因是什么
马斯克:特斯拉CEO对中国车企表示担忧
5G工业路由器的常见分类及应用领域
植物茎秆强度仪的功能特点是怎样的
如何在ubuntu使用hanlp
创维推出液晶电视对标激光电视 彩电市场竞争异常激烈
《中国通信学会国内信息通信领域科技期刊分级推荐目录(2020)》C类
电源设计全过程:电源设计选型实例
配置缩水,价格逼旗舰!小米note3大号版小米6会是你的菜吗?
安森美半导体宣布大举扩充通过汽车认证的产品阵容
确定了!三星S8将3月29发布,售价6000起!
光放大器开关电源内部检修案例
红魔手表震撼来袭:轻薄舒适、超长续航、首创足球热力图
余承东:华为重金投入人工智能 研发投入有望成为第一
中芯长电亦被列入美国实体名单
冲印照片最大尺寸对照表
自动结账、打包,松下的这个机器人收银员已经实装了
怎样才能学好电路分析
广泛应用于传感器的电流输入型前置放大器