conda环境下nltk_data下载失败问题解决

Conda是一个强大的工具，对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置，使得Python开发更加容易和高效。通过使用Conda，开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行，大大提高了项目的可移植性和可复现性。

AI医疗

2791人浏览 · 2023-11-08 15:37:35

AI医疗 · 2023-11-08 15:37:35 发布

1 问题描述

VITS2的模型训练过程中，出现nltk_data下载失败错误，打印信息如下：

python preprocess_text.py 

[nltk_data] Error loading averaged_perceptron_tagger: <urlopen error
[nltk_data]     [Errno 111] Connection refused>
[nltk_data] Error loading cmudict: <urlopen error [Errno 111]
[nltk_data]     Connection refused>
Traceback (most recent call last):
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/corpus/util.py", line 84, in __load
    root = nltk.data.find(f"{self.subdir}/{zip_name}")
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/data.py", line 583, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource cmudict not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('cmudict')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load corpora/cmudict.zip/cmudict/

  Searched in:
    - '/root/nltk_data'
    - '/root/anaconda3/envs/vits/nltk_data'
    - '/root/anaconda3/envs/vits/share/nltk_data'
    - '/root/anaconda3/envs/vits/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/opt/Bert-VITS2/preprocess_text.py", line 9, in <module>
    from text.cleaner import clean_text
  File "/opt/Bert-VITS2/text/cleaner.py", line 1, in <module>
    from text import chinese, japanese, english, cleaned_text_to_sequence
  File "/opt/Bert-VITS2/text/english.py", line 11, in <module>
    _g2p = G2p()
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/g2p_en/g2p.py", line 71, in __init__
    self.cmu = cmudict.dict()
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/corpus/util.py", line 121, in __getattr__
    self.__load()
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/corpus/util.py", line 86, in __load
    raise e
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/corpus/util.py", line 81, in __load
    root = nltk.data.find(f"{self.subdir}/{self.__name}")
  File "/root/anaconda3/envs/vits/lib/python3.9/site-packages/nltk/data.py", line 583, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource cmudict not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('cmudict')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load corpora/cmudict

  Searched in:
    - '/root/nltk_data'
    - '/root/anaconda3/envs/vits/nltk_data'
    - '/root/anaconda3/envs/vits/share/nltk_data'
    - '/root/anaconda3/envs/vits/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************

2 问题分析

从异常日志可知，在搜索路径列表中找不到数据。

3 问题解决

打开github地址：https://github.com/nltk/nltk_data

下载整个工程，下载完成后，将packages目录重命令为nltk_data，然后整个nltk_data文件夹拷贝到/usr/share目录下，拷贝完成后，如下所示：

(vits) [root@localhost Bert-VITS2]# ll /usr/share/nltk_data/
总用量 12
drwxr-xr-x 2 root root   76 11月  8 15:29 chunkers
drwxr-xr-x 2 root root 8192 11月  8 15:30 corpora
drwxr-xr-x 2 root root  316 11月  8 15:30 grammars
drwxr-xr-x 2 root root   56 11月  8 15:30 help
drwxr-xr-x 2 root root  114 11月  8 15:30 misc
drwxr-xr-x 2 root root  244 11月  8 15:30 models
drwxr-xr-x 2 root root   68 11月  8 15:30 sentiment
drwxr-xr-x 2 root root  162 11月  8 15:30 stemmers
drwxr-xr-x 2 root root  332 11月  8 15:30 taggers
drwxr-xr-x 2 root root   52 11月  8 15:30 tokenizers

再次运行模型程序，问题已经解决

4 conda环境介绍

Conda是一个开源的包管理器和环境管理系统，用于安装、运行和更新包和其依赖项。它是由Anaconda, Inc.（以前称为Continuum Analytics）创建，用于支持Python程序开发，但它也可以用来管理来自其他语言的包。Conda使得包管理和环境隔离变得简单，对于处理多个项目中的依赖关系和版本控制尤其有用。

4.1 Conda的核心功能

包管理：Conda作为包管理器，可以安装、更新和移除Python包。它通过Conda仓库，如Anaconda Cloud或Conda Forge，来获取包。
环境管理：Conda允许用户创建隔离的环境，以便于不同项目可以拥有不同的库和/或Python版本。这在处理不兼容的依赖项或不同项目的需求时非常有用。
跨平台：Conda支持Linux、OS X和Windows，并允许创建跨平台的Python环境。
开源：Conda是开源的，允许用户查看源代码并对其进行改进。

4.2 使用Conda的优势

解决依赖性问题：Conda可以自动解决包之间的依赖关系，简化了安装过程。
环境隔离：创建独立的环境可以避免包之间的版本冲突，使得项目更稳定。
易于使用：Conda的命令行界面简单直观，易于学习和使用。
广泛的包支持：Conda支持Python的许多流行库和应用程序。
社区支持：作为一个流行的工具，Conda拥有一个活跃的社区，用户可以从中找到支持和资源。

4.3 Conda环境的创建和管理

创建新环境：使用conda create命令创建一个新环境，可以指定Python版本和所需的包。
激活环境：使用conda activate命令来激活环境。
安装包：在激活的环境中使用conda install命令来安装新的包。
环境列表：使用conda env list来查看所有可用的Conda环境。
移除环境：使用conda env remove命令来移除不再需要的环境。

4.4 应用场景

数据科学和机器学习：Conda非常适合于数据科学和机器学习项目，这些项目通常需要多个库和框架。
软件开发：软件开发者使用Conda来管理项目依赖，确保一致的开发环境。
教学和学术研究：教师和研究人员使用Conda来创建具有特定库和工具的环境，用于教学和研究。

4.5 常用命令

Conda 是一个开源的包管理器和环境管理器，广泛用于管理Python环境和包。以下是一些常用的 Conda 命令：

安装 Conda 包:
- conda install [package-name]: 安装指定的包。
创建和管理环境:
- conda create --name [env-name]: 创建一个新的环境。
- conda activate [env-name]: 激活指定环境。
- conda deactivate: 退出当前环境。
- conda env list: 列出所有可用的环境。
管理包:
- conda list: 在当前环境中列出所有已安装的包。
- conda update [package-name]: 更新指定的包。
- conda remove [package-name]: 移除指定的包。
搜索包:
- conda search [package-name]: 搜索可用的包版本。
环境导出和导入:
- conda env export > environment.yml: 导出当前环境的配置到一个YAML文件。
- conda env create -f environment.yml: 使用YAML文件创建一个新环境。
更新 Conda:
- conda update conda: 更新 Conda 到最新版本。
查看 Conda 信息:
- conda info: 显示关于 Conda 的信息。