python nlpir_中文分词工具--NLPIR/ICTCLAS的Python版本使用

发现jieba的分词工具在新闻语料上面存在着一些问题，比如：这种情况显然是令人难以接受的，尤其是在数据几乎全是新闻语料的情况下，因此，查阅了一些分词工具的表现情况，得到的数据如下：数据来自thunlp/THULACgithub.com从以上两个表格可以看出，jieba速度最快同时也是表现最差的。综合两个测试集的情况来看LTP以及ICTCLAS表现较好，但是在速度上和其他工具差距比较大，如果对于时

weixin_39559015

344人浏览 · 2020-12-17 15:03:35

weixin_39559015 · 2020-12-17 15:03:35 发布

发现jieba的分词工具在新闻语料上面存在着一些问题，比如：

这种情况显然是令人难以接受的，尤其是在数据几乎全是新闻语料的情况下，因此，查阅了一些分词工具的表现情况，得到的数据如下：

数据来自thunlp/THULACgithub.com

从以上两个表格可以看出，jieba速度最快同时也是表现最差的。综合两个测试集的情况来看LTP以及ICTCLAS表现较好，但是在速度上和其他工具差距比较大，如果对于时间的要求不是很高可以考虑，不过需要注意的是pyltp的支持情况如下

数据来自HIT-SCIR/pyltpgithub.com

综合考虑，本人选择了ICTCLAS分词工具。

值得吐槽的是他的首页长成这样子的

让人看了就想遛。。。如果你也同样想遛，推荐遛到其Python版本GitHub主页https://github.com/tsroten/pynlpirgithub.com

直接采用pip方式即可安装，在安装完成之后需要到https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83github.com

下载NLPIR.user文件放到安装的pynlpir的DATA目录下，比如我的目录就是/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pynlPIR/Data

在完成了以上操作之后就可以使用该软件了，比如对开头提高的那句话的分词

以上。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐