4.Python实战小项目—用Python轻松创建词云图
词云图,又称为文本云或标签云,是一种数据可视化技术。它通过将文本数据中的词汇以视觉化的形式展示出来,帮助人们快速理解文本的主题和关键信息。在词云图中,不同的词汇会以不同的大小、颜色和字体显示,这些视觉元素通常与词汇在文本中出现的频率或重要性相关联。词云图的基本原理是对文本进行分词处理,然后统计每个词汇的频率或权重。接着,根据这些频率或权重来调整词汇在图中的大小、颜色和位置等视觉属性。这样可以使得出
一·摘要
词云图,又称为文本云或标签云,是一种数据可视化技术。它通过将文本数据中的词汇以视觉化的形式展示出来,帮助人们快速理解文本的主题和关键信息。在词云图中,不同的词汇会以不同的大小、颜色和字体显示,这些视觉元素通常与词汇在文本中出现的频率或重要性相关联。
词云图的基本原理是对文本进行分词处理,然后统计每个词汇的频率或权重。接着,根据这些频率或权重来调整词汇在图中的大小、颜色和位置等视觉属性。这样可以使得出现频率较高或较重要的词汇更加突出,而出现频率较低或较不重要的词汇则相对较小或较不明显。
二·个人简介
🏘️🏘️个人主页:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证,CSDN内容合伙人,阿里云社区专家博主,新星计划导师,在职数据分析师。
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。
类型 | 专栏 |
---|---|
Python基础 | Python基础入门—详解版 |
Python进阶 | Python基础入门—模块版 |
Python高级 | Python网络爬虫从入门到精通🔥🔥🔥 |
Web全栈开发 | Django基础入门 |
Web全栈开发 | HTML与CSS基础入门 |
Web全栈开发 | JavaScript基础入门 |
Python数据分析 | Python数据分析项目🔥🔥 |
机器学习 | 机器学习算法🔥🔥 |
人工智能 | 人工智能 |
三·原理
词云图的原理是通过统计文本数据中词汇的频率,并将这些频率以视觉化的形式表现出来。
- 需要对原始文本进行预处理,包括去除标点符号、停用词过滤等,以确保只保留有意义的词汇。然后,使用分词工具(如jieba库)对处理后的文本进行分词,并统计每个词出现的频率。
- 利用词频数据,使用特定的算法(如字体大小和颜色渐变)来生成词云图。在这一步中,可以选择不同的形状模板,使得词云图呈现出特定的外形。例如,可以使用WordCloud库来创建词云对象,并设置不同的参数来绘制不同形状、颜色和尺寸的词云图。
- 为了提高词云图的可读性和美观性,可以对词汇的布局、颜色和字体进行调整。这样可以使得重要的关键词更加突出,同时也增加了视觉上的吸引力。最终,将优化后的词云图以图片的形式展示出来,使得人们可以直观地看到文本数据中的重点信息。
四·流程
制作Python文本数据可视化的“词云”图的详细步骤如下:
- 安装必要库:需要安装
wordcloud
库,这是专门用于生成词云图的Python库。同时,如果处理的是中文文本,还需要安装jieba
库进行中文分词。 - 导入库和模块:在Python脚本中导入
wordcloud
、numpy
(用于数值计算)和jieba
(用于中文分词)等库。 - 准备文本数据:收集并准备需要制作词云图的文本数据。如果是中文文本,使用
jieba
库进行分词处理,以便更好地统计词频。 - 文本清洗:对文本数据进行清洗,包括去除标点符号、停用词过滤等,以确保只保留有意义的词汇。
- 统计词频:统计清洗后文本中每个词的出现频率。这通常是通过创建一个字典来实现的,其中键是词汇,值是它们出现的次数。
- 生成词云图:使用
wordcloud
库中的WordCloud
类来生成词云图。可以通过设置不同的参数来自定义词云图的形状、颜色和尺寸等。 - 显示或保存词云图:最后,可以将生成的词云图显示在屏幕上或者保存为图片文件,以便于进一步的分析和展示。
五·实战演示
5.1 情景回顾
为了将10家上市公司的“主要业务”词频文件批量生成词云图,我们需要导入所需的库。这些库包括wordcloud
(用于生成词云图)、numpy
(用于数值计算)和jieba
(用于中文分词)。如果这些库尚未安装,可以使用pip install
命令进行安装。
接下来,我们需要准备包含“主要业务”描述的文本数据,并进行必要的预处理,如去除标点符号、过滤停用词等。然后,我们使用jieba
库对中文文本进行分词处理,以便更好地统计词频。
在完成文本清洗和分词后,我们创建一个字典来统计每个词的出现频率。这将成为生成词云图的关键数据。
有了词频数据后,我们使用wordcloud
库中的WordCloud
类来生成词云图。在这个过程中,我们可以设置不同的参数来自定义词云图的形状、颜色和尺寸等,使其更符合我们的需求。
最后,我们将生成的词云图显示在屏幕上或者保存为图片文件,以便于进一步的分析和展示。这样,通过查看词云图,我们就可以大致了解每家公司的主要业务是什么,同时在PPT中展示也显得更加高大上。
5.2 导入相关模块
import numpy as np # numpy数据处理库
import wordcloud # 词云库
from PIL import Image # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook #读取词频Excel文件
import os #获取词频Excel文件路径
然后获取所有的Excel词频表路径,以便后续逐一读取,并传入词云库生成词云图。再定义词频背景图,np.array(Image.open())打开图片后转为数组,存入maskImage变量。需要注意词频背景图中想要的形状的背景需要是白色的,不然无法得到想要的词云图形状。比如如下背景图片,左边的图片因为猴子的背景不是白色,做出的词云图会占满整个图片,即是一个矩形的词云图;右边的图片中,猴子的背景是白色的,做出的词云图看起来就是一只猴子的形状。
5.3 代码示例
然后用for循环遍历所有待处理的Excel文件,逐个打开,提取其中的词和词频,存入字典wordFreq。然后通过wordcloud.WordCloud()定义词云样式。这个函数有很多参数,具体如下。我们只需要关注常用的几个即可,其它可作为了解。
wordcloud.WordCloud(
font_path=None,
width=400,
height=200,
margin=2,
ranks_only=None,
prefer_horizontal=0.9,
mask=None, scale=1,
color_func=None,
max_words=200,
min_font_size=4,
stopwords=None,
random_state=None,
background_color='black',
max_font_size=None,
font_step=1,
mode='RGB',
relative_scaling='auto',
regexp=None,
collocations=True,
colormap=None,
normalize_plurals=True,
contour_width=0,
contour_color='black',
repeat=False,
'include_numbers=False',
'min_word_length=0',
'collocation_threshold=30')
这些参数的含义如下:
font_path: 字体文件的路径。
width: 生成的词云图的宽度。
height: 生成的词云图的高度。
margin: 词云图的边距。
ranks_only: 是否只使用词汇的频率排名。
prefer_horizontal: 词汇的水平显示偏好。
mask: 用于定制词云图形状的蒙版图像。
scale: 词汇的大小范围。
color_func: 自定义颜色函数。
max_words: 词云图中最大的词汇数量。
min_font_size: 词云图中最小的字体大小。
stopwords: 需要忽略的停用词列表。
random_state: 随机状态,用于控制随机性。
background_color: 词云图的背景颜色。
max_font_size: 词云图中最大的字体大小。
font_step: 字体大小的步长。
mode: 颜色模式,默认为’RGB’。
relative_scaling: 词汇大小的相对缩放方式。
regexp: 用于过滤词汇的正则表达式。
collocations: 是否启用搭配(短语)的提取。
colormap: 用于映射词汇颜色的颜色映射表。
normalize_plurals: 是否将复数形式归一化为单数形式。
contour_width: 轮廓线的宽度。
contour_color: 轮廓线的颜色。
repeat: 是否重复绘制词汇以增强视觉效果。
include_numbers: 是否包含数字。
min_word_length: 最小词汇长度。
collocation_threshold: 搭配阈值,用于确定哪些词汇可以组成搭配。
此例中,我们调用wordcloud时,设定了字体为“黑体”,使用了背景图为绘图模板,设置了最多显示词数为500,字号最大为100。然后使用generate_from_frequencies()从已有词频数据的字典中生成词云图。然后将词云图按公司名保存到指定路径(“词云图”文件夹)。最后用plt.imshow()在notebook中显示词云图。结果如下。
#将存好的Excel词频表读取成字典
path='词频' #文件所在文件夹
files = [path+"\\"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png')) # 定义词频背景图
for file in files:
#将词频Excel文件读取为字典
wb = load_workbook(file)
ws = wb.active
wordFreq = {}
for i in range(2,ws.max_row+1):
word = ws["A"+str(i)].value
freq = ws["B"+str(i)].value
wordFreq[word] = freq
#定义词云样式
wc = wordcloud.WordCloud(
font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体
mask= maskImage, # 设置背景图
max_words=500, # 最多显示词数
max_font_size=100) # 字号最大值
#生成词云图
wc.generate_from_frequencies(wordFreq) # 从字典生成词云
#保存图片到指定文件夹
wc.to_file("词云图\\{}.png".format(file.split("\\")[1][:4]))
#在notebook中显示词云图
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)