使用python的jieba,wordcloud做唐诗分析

Posted by 甘家城 on 2017-07-13 Viewed times

首先安装好python3.x以及jieba,wordcloud库,这是前提。

然后搜罗了一份唐诗的txt文档,具体看这里

思路:先用jieba把每首诗标题去掉,提取出正文。再jiaba.cut做分词,分完的词保存下来,再用worcloud作词云,具体可以看wordcloud文档

具体代码:

#coding:utf-8
#python3.5
#引入库文件
from wordcloud import WordCloud
import jieba
ss=""
f=open('poetry.txt',encoding='utf-8')
#读取每首诗并去掉标题
#进行分词并存储
for i in f.readlines():
    l=i[i.find(':')+1:-1]
    s=jieba.cut(l,cut_all=False)
    for j in s:
        if j==':' or j==',' or j=='。':
            continue
        else:
            ss+=j+" "
#引入中文字体文件
font="C:/Windows/Fonts/simfang.ttf"
#构建词云并保存
#如需展示的话可以用matplotlib,具体可以看wordcloud文档
word=WordCloud(width=4000,height=2000,font_path=font,max_words=2000,max_font_size=500).generate(ss)
word.to_file('filename.png')

效果展示:

 


版权声明:本文为原创文章,转载请注明出处和作者,不得用于商业用途,请遵守 CC BY-NC-SA 4.0协议。

支付宝打赏 微信打赏

赞赏一下