python实现 政府工作报告词云的生成(嵩天老师)
实例12:政府工作报告词云基本思路-步骤1:读取文件、分词整理-步骤2:设置并输出词云-步骤3:观察结果,优化迭代
实例12:政府工作报告词云
基本思路
-步骤1:读取文件、分词整理
-步骤2:设置并输出词云
-步骤3:观察结果,优化迭代
代码:
#GovRptWordCloudv1.py
import jieba
import wordcloud
from scipy.misc import imread
mask=imread("fivestart.png")
f=open("新时代中国特色社会主义.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt=" ".join(ls)
w=wordcloud.WordCloud(fout_path="msyh.ttc",mask=mask\
width=1000,height=700,background_color="white",\
max_words=15)
w.generate(txt)
w.to_filee("grwordcloud.pang")
由于没有“新时代中国特色社会主义.txt”的文本这段代码之作理解不在运行
逐行分析:
#GovRptWordCloudv1.py
import jieba
由于“新时代中国特色社会主义.txt”是中文文本,所以需要使用jieba库进行分词
import wordcloud
wordcloud库,绘制词云
from scipy.misc import imread
调用imread库中的scipy.misc方法
mask=imread("fivestart.png")
用imread库读取一张图片,并且变成一个图片文件表达的内部变量,用mask来表达
f=open("新时代中国特色社会主义.txt","r",encoding="utf-8")
以utf-8的形式打开文件
t=f.read()
读取打开的f文件的全部文本
f.close()
关闭文件,及时关闭文件可以防止后续操作修改原来文本内容
ls=jieba.lcut(t)
调用jieba库对文本进行分词
txt=" ".join(ls)
在每个分词间加入空格
w=wordcloud.WordCloud(fout_path="msyh.ttc",mask=mask\
width=1000,height=700,background_color="white",\
max_words=15)
定义词云,指定字体文件的路径为"msyh.ttc",即使用微软雅黑字体,将mask参数给定到mask方法中,词云图宽1000,高700,底色为白,最多有15个词
w.generate(txt)
将词组变量txt导入词云对象w中并保存
w.to_filee("grwordcloud.pang")
生成词云名称为"grwordcloud"格式为png
ps:imread库的介绍及使用
cv2入门函数imread及其相关操作_trust Tomorrow的博客-CSDN博客_imread输入参数太少
举一反三
-了解wordcloud更多参数,扩展词云能力
-特色词云:设计一款属于自己的特色词云风格
-更多文件:用更多文件练习词云生成
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)