• 大小: 7KB
    文件类型: .zip
    金币: 2
    下载: 3 次
    发布日期: 2021-07-10
  • 语言: Python
  • 标签: gensim  概率矩阵  

资源简介

包括Python分词,去停用词,使用gensim包进行LDA主题分析,并输出每条矩阵属于每个主题的概率的代码,以及停用词表

资源截图

代码片段和文件信息

import jieba


# jieba.load_userdict(‘userdict.txt‘)
# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath ‘r‘ encoding=‘utf-8‘).readlines()]
    return stopwords


# 对句子进行分词
def seg_sentence(sentence):
    sentence_seged = jieba.cut(sentence.strip())
    stopwords = stopwordslist(‘D:/LDA/stopwords.txt‘)  # 这里加载停用词的路径
    outstr = ‘‘
    for word in sentence_seged:
        if word not in stopwords:
            if word != ‘\t‘:
                outstr += word
                outstr += “ “
    return outstr

#读入需要分词的文件
inputs = open(‘D:/LDA/dp.txt‘ ‘r‘ encoding=‘utf-8‘)
#输出分词结果
outputs = open(‘D:/LDA/dp_fenci.txt‘ ‘w‘encoding=‘utf-8‘)
for line in inputs:
    line_seg = seg_sentence(line)  # 这里的返回值是字符串
    outputs.write(line_seg + ‘\n‘)
outputs.close()
inputs.close()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件       15267  2018-04-10 17:44  stopwords.txt
     文件        1150  2018-05-16 22:04  topic_model1.py
     文件         946  2018-05-16 14:45  quting.py

评论

共有 条评论