发现jieba的分词工具在新闻语料上面存在着一些问题,比如:

这种情况显然是令人难以接受的,尤其是在数据几乎全是新闻语料的情况下,因此,查阅了一些分词工具的表现情况,得到的数据如下:

数据来自thunlp/THULAC​github.com

从以上两个表格可以看出,jieba速度最快同时也是表现最差的。综合两个测试集的情况来看LTP以及ICTCLAS表现较好,但是在速度上和其他工具差距比较大,如果对于时间的要求不是很高可以考虑,不过需要注意的是pyltp的支持情况如下

数据来自HIT-SCIR/pyltp​github.com

综合考虑,本人选择了ICTCLAS分词工具。

值得吐槽的是他的首页长成这样子的

让人看了就想遛。。。如果你也同样想遛,推荐遛到其Python版本GitHub主页https://github.com/tsroten/pynlpir​github.com

直接采用pip方式即可安装,在安装完成之后需要到https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83​github.com

下载NLPIR.user文件放到安装的pynlpir的DATA目录下,比如我的目录就是/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pynlPIR/Data

在完成了以上操作之后就可以使用该软件了,比如对开头提高的那句话的分词

以上。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐