Pattern是Python的一个web挖掘模块。它有工具:

1. 数据挖掘: web服务(谷歌,Twitter,维基百科),网络爬虫,HTML DOM解析器

2. 自然语言处理: 词性标记,n-gram搜索,情感分析,WordNet

3. 机器学习: 向量空间模型,聚类,分类(KNN, SVM,感知器)
 
4. 网络分析: 图形中心性和可视化。

它有很好的文档,经过了350多个单元测试,并附带了50多个示例。

https://github.com/clips/pattern

安装:

源码安装:

cd pattern-3.6
python setup.py install

pip安装

pip install pattern

安装出错,显示没有装mysqlclient (目前mysqlclient是安装pattern必须安装的)

error: mysql_config not found

解决方法:

apt install libmysqlclient-dev

pip install pattern

此外,直接将pattern的文件夹拉到本地需要使用的地方也是可以的

 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐