解决nltk download(‘punkt’)连接尝试失败

原文链接:https://blog.csdn.net/weixin_44633882/article/details/104494276

1. 尝试下载

import nltk
nltk.download()
>d punkt

这种方法在第二步就会抛出“连接尝试失败”,一方面因为nltk文件很大,另一方面当前的网络不太稳定。

2. 解决方法

不能直接下载,那只好看看它要下载什么文件,存到什么地方。然后我们自己去下载,放到指定的目录下。

运行需要的nltk分词代码

import nltk
nltk.word_tokenize("A pivot is the pin or the central point on which something balances or turns")

会抛出异常

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Applications\Anaconda3\lib\site-packages\nltk\tokenize\__init__.py", line 144, in word_tokenize
  ...
  File "C:\Applications\Anaconda3\lib\site-packages\nltk\data.py", line 701, in find
    raise LookupError(resource_not_found)
LookupError:
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - 'C:\\Users\\11244/nltk_data'
    - 'C:\\Applications\\Anaconda3\\nltk_data'
    - 'C:\\Applications\\Anaconda3\\share\\nltk_data'
    - 'C:\\Applications\\Anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\11244\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''
**********************************************************************

我们可以看到,尝试加载了tokenizers/punkt/english.pickle文件,但没有找到。系统会从'C:\\Users\\11244/nltk_data'这几个路径下进行搜索。

OK,我们知道了需要什么文件,应该将这个文件放到哪里。从哪里下载呢?

访问nltk_data,可以选择直接download下来需要的包,再按刚才的路径放好。大概14分钟才能下好吧。

github最近网不稳定,我们来找到另一个下载地址,而非github的下载地址。

拉到右边

从这里下载更快(●’◡’●),推荐放到迅雷!

下载好了punkt.zip文件,我选择放到C:\\Applications\\Anaconda3\\share\\nltk_data目录下,完成解压。

λ python
Python 3.6.5 |Anaconda, Inc.| (default, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.word_tokenize("A pivot is the pin or the central point on which something balances or turns")
['A', 'pivot', 'is', 'the', 'pin', 'or', 'the', 'central', 'point', 'on', 'which', 'something', 'balances', 'or', 'turns']

3. 小结

因为我在github上需要使用的项目,仅要求我下载nltk库中的punkt,所以我就这么下载了。

希望也能帮助到其他人!

参考

  1. https://blog.csdn.net/qq_43376013/article/details/102883773
  2. https://blog.csdn.net/weixin_44574186/article/details/90748946
  3. https://www.cnblogs.com/zrmw/p/10869325.html
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐