• 大小: 1.23M
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 识别  分词  

资源简介

1. 应用朴素贝叶斯算法,对Content 数据集进行分类

1)对数据进行清洗

2)基于给定的词库和停止词,进行文本切词

3)建立NB模型

资源截图

代码片段和文件信息

import pandas as pd
# 读入评论数据
evaluation = pd.read_excel(r‘Contents.xlsx‘)
# 查看数据前10行
print(evaluation.head(10))


# 运用正则表达式,将评论中的数字和英文去除
evaluation.Content = evaluation.Content.str.replace(‘[0-9a-zA-Z]‘‘‘)
evaluation.head()

# 导入第三方包
import jieba

# 加载自定义词库
jieba.load_userdict(r‘all_words.txt‘)

# 读入停止词
with open(r‘mystopwords.txt‘ encoding=‘UTF-8‘) as words:
    stop_words = [i.strip() for i in words.readlines()]

# 构造切词的自定义函数,并在切词过程中删除停止词
def cut_word(sentence):
    words = [i for i in jieba.lcut(sentence) if i not in stop_words]
    # 切完的词用空格隔开
    result = ‘ ‘.join(words)
    return(result)
# 对评论内容进行批量切词
words = evaluation.Content.apply(cut_word)
# 前5行内容的切词效果
words[:5]


# 导入第三方包
from sklearn.feature_extraction.text import CountVectorizer
# 计算每个词在各评

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件     701641  2019-08-25 09:01  all_words.txt

     文件     929935  2019-08-25 09:01  Contents.xlsx

     文件      99725  2019-08-25 09:01  mystopwords.txt

     文件       3050  2019-09-14 21:07  nbtest.py

----------- ---------  ---------- -----  ----

              1734351                    4


评论

共有 条评论