• 大小: 25KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-05-12
  • 语言: 其他
  • 标签:

资源简介

简书代码

资源截图

代码片段和文件信息

#进行文档分类(应用版)
from matplotlib import pyplot  
import scipy as sp  
import numpy as np
import os
from sklearn import datasets
from sklearn.datasets import load_files

from sklearn.cross_validation import train_test_split  
from sklearn.feature_extraction.text import  CountVectorizer  
from sklearn.feature_extraction.text import  TfidfVectorizer

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB

from sklearn.metrics import precision_recall_curve  
from sklearn.metrics import classification_report

#计算指定目录下含有的文件个数
path1 = “D:\\phpspider-master\\OperationMySQL\\operation1“
path2 = “D:\\phpspider-master\\OperationMySQL\\mainoperation“
ls1 = os.listdir(path1)
ls2 = os.listdir(path2)
count1 = 0
count2 = 0
for i in ls1:
    if os.path.isfile(os.path.join(path1i)):
        count1 += 1
for j in ls2:
    if os.path.isfile(os.path.join(path2j)):
        count2 += 1
        
twenty_train = load_files(“D:/phpspider-master/OperationMySQL/result4“)

vectorizer=CountVectorizer(decode_error = ‘ignore‘)#该类用于将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的词频  
transformer=TfidfTransformer()#该类用于统计每个词语的tf-idf权值
tfidf=transformer.fit_transform(vectorizer.fit_transform(twenty_train.data))#第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵


#调用MultinomialNB分类器  
clf = MultinomialNB().fit(tfidftwenty_train.target)

# 对新的样本进行预测
for i in range(count2+1count1+1):
        f=open(“D:\\phpspider-master\\OperationMySQL\\operation5\\%d.txt“ % (i)“r“encoding=‘utf-8‘) #读取文本
        p = f.read()     
        docs_new=[]
        docs_new.append(p)
        X_new_counts = vectorizer.transform(docs_new)

        X_new_tfidf = transformer.transform(X_new_counts)

        predicted = clf.predict(X_new_tfidf)#预测输入内容的类别
        for doccategory in zip(docs_newpredicted):
            print(twenty_train.target_names[category])
            ‘‘‘
            if((twenty_train.target_names[category])== ‘1‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《财经》---类文章“)
            elif((twenty_train.target_names[category])== ‘2‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《IT》---类文章“)
            elif((twenty_train.target_names[category])== ‘3‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《健康》---类文章“)
            elif((twenty_train.target_names[category])== ‘4‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《体育》---类文章“)
            elif((twenty_train.target_names[category])== ‘5‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《旅游》---类文章“)
            elif((twenty_train.target_names[category])== ‘6‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《教育》---类文章“)
            elif((twenty_train.target_names[category])== ‘7‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《招聘》---类文章“)
            elif((twenty_train.target_names[category])== ‘8‘):
                print(“呵呵,如果我猜的没错刚才我读了一篇---《文化》---类文章“)
            else:
                print(“呵呵,如果我猜的没错刚才我读了一篇---《军事》---类文章“)
            
  

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        7445  2017-05-19 13:44  相关代码\Most_powerful.py
     文件        3698  2017-05-19 10:33  相关代码\collect.py
     文件        4805  2017-05-26 18:58  相关代码\operation.php
     文件         314  2017-05-18 10:01  相关代码\operationtemp.php
     文件        1850  2017-05-18 22:37  相关代码\similarity_calculation.py
     文件       77144  2017-05-06 09:13  相关代码\stopword.txt
     目录           0  2017-07-06 11:56  相关代码\

评论

共有 条评论

相关资源