• 大小: 10.73MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-05
  • 语言: Python
  • 标签: python  wordcloud  jieba  

资源简介

分析三国演义和红楼梦,进行中文分词,统计人物出场频次,生成词云图。分享给广大python爱好者学习交流。

资源截图

代码片段和文件信息

# #e10.3CalThreeKingdoms.py
# import jieba
# excludes = {}#{“将军““却说““丞相“}
# txt = open(“三国演义.txt“ “r“ encoding=‘utf-8‘).read()
# words  = jieba.lcut(txt)
# counts = {}
# for word in words:
#     if len(word) == 1:  #排除单个字符的分词结果
#         continue
#     else:
#         counts[word] = counts.get(word0) + 1
# for word in excludes:
#     del(counts[word])
# items = list(counts.items())
# items.sort(key=lambda x:x[1] reverse=True) 
# for i in range(15):
#     word count = items[i]
#     print (“{0:<10}{1:>5}“.format(word count))




#e10.4CalThreeKingdoms.py
import jieba
excludes = {“将军““却说““荆州““二人““不可““不能““如此“}
excludes = {}
txt = open(“三国演义.txt“ “r“ encoding=‘utf-8‘).read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == “诸葛亮“ or word == “孔明曰“:
        rword = “孔明“
    elif word == “关公“ or word == “云长“:
        rword = “关羽“
    elif word == “玄德“ or word == “玄德曰“:
        rword = “刘备“
    elif word == “孟德“ or word == “丞相“:
        rword = “曹操“
    else:
        rword = word
    counts[rword] = counts.get(rword0) + 1
for word in excludes:
    del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1] reverse=True) 
for i in range(20):
    word count = items[i]
    print (“{0:<10}{1:>5}“.format(word count))

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2020-10-22 23:00  中文分词\
     文件    15043584  2006-09-25 16:46  中文分词\msyh.ttf
     文件     1792627  2020-10-22 21:06  中文分词\三国演义.txt
     文件        1503  2020-10-22 22:33  中文分词\三国演义分词.py
     文件      193632  2020-10-22 22:53  中文分词\三国演义词云.png
     文件        1074  2020-10-22 22:05  中文分词\三国演义词云.py
     文件     2463064  2020-10-22 21:09  中文分词\红楼梦.txt
     文件         567  2020-10-22 22:33  中文分词\红楼梦分词.py
     文件      298031  2020-10-22 22:53  中文分词\红楼梦词云.png
     文件        1070  2020-10-22 22:03  中文分词\红楼梦词云.py

评论

共有 条评论