新闻自动分类部分代码

大小: 25KB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2021-05-12
语言: 其他
标签:

高速下载

资源简介

简书代码

资源截图

小图大图

代码片段和文件信息

#进行文档分类（应用版）
from matplotlib import pyplot  
import scipy as sp  
import numpy as np
import os
from sklearn import datasets
from sklearn.datasets import load_files

from sklearn.cross_validation import train_test_split  
from sklearn.feature_extraction.text import  CountVectorizer  
from sklearn.feature_extraction.text import  TfidfVectorizer

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB

from sklearn.metrics import precision_recall_curve  
from sklearn.metrics import classification_report

#计算指定目录下含有的文件个数
path1 = “D:\\phpspider-master\\OperationMySQL\\operation1“
path2 = “D:\\phpspider-master\\OperationMySQL\\mainoperation“
ls1 = os.listdir（path1）
ls2 = os.listdir（path2）
count1 = 0
count2 = 0
for i in ls1:
    if os.path.isfile（os.path.join（path1i））:
        count1 += 1
for j in ls2:
    if os.path.isfile（os.path.join（path2j））:
        count2 += 1
        
twenty_train = load_files（“D:/phpspider-master/OperationMySQL/result4“）

vectorizer=CountVectorizer（decode_error = ‘ignore‘）#该类用于将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频  
transformer=TfidfTransformer（）#该类用于统计每个词语的tf-idf权值
tfidf=transformer.fit_transform（vectorizer.fit_transform（twenty_train.data））#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵


#调用MultinomialNB分类器  
clf = MultinomialNB（）.fit（tfidftwenty_train.target）

# 对新的样本进行预测
for i in range（count2+1count1+1）:
        f=open（“D:\\phpspider-master\\OperationMySQL\\operation5\\%d.txt“ % （i）“r“encoding=‘utf-8‘） #读取文本
        p = f.read（）     
        docs_new=[]
        docs_new.append（p）
        X_new_counts = vectorizer.transform（docs_new）

        X_new_tfidf = transformer.transform（X_new_counts）

        predicted = clf.predict（X_new_tfidf）#预测输入内容的类别
        for doccategory in zip（docs_newpredicted）:
            print（twenty_train.target_names[category]）
            ‘‘‘
            if（（twenty_train.target_names[category]）== ‘1‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《财经》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘2‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《IT》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘3‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《健康》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘4‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《体育》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘5‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《旅游》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘6‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《教育》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘7‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《招聘》---类文章“）
            elif（（twenty_train.target_names[category]）== ‘8‘）:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《文化》---类文章“）
            else:
                print（“呵呵，如果我猜的没错刚才我读了一篇---《军事》---类文章“）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        7445  2017-05-19 13:44  相关代码\Most_powerful.py
     文件        3698  2017-05-19 10:33  相关代码\collect.py
     文件        4805  2017-05-26 18:58  相关代码\operation.php
     文件         314  2017-05-18 10:01  相关代码\operationtemp.php
     文件        1850  2017-05-18 22:37  相关代码\similarity_calculation.py
     文件       77144  2017-05-06 09:13  相关代码\stopword.txt
     目录           0  2017-07-06 11:56  相关代码\

共有条评论

新闻自动分类部分代码

资源简介

资源截图

代码片段和文件信息

评论

相关资源