• 大小: 2KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: Python
  • 标签: doc2vec  

资源简介

主要用于文本的量化处理,非常适合计算文本的相似度以及文本分类,相比于tf-idf更优。

资源截图

代码片段和文件信息

import jieba
import pandas as pd
import gensim
import re
jieba.load_userdict(‘d:/data/stocks/数据/平安银行字典.txt‘)#加载结巴分词的词典(还需要把各股票的名字导入进去,今天进行)
jieba.load_userdict(‘d:/data/stocks/数据/股票名称.txt‘)
def cut_word(text):
    ‘‘‘
    分词操作,返回一个文章的所有单词列表
    ‘‘‘
    #text=process_txt(str(text))
    #text=‘ ‘.join(text)
    text_list=re.split(u‘[^\u4e00-\u9fa50-9a-zA-Z]+‘ str(text))
    word_list=[]
    for sent in text_list:
        word_list1=jieba.cut(sent)
        for word in word_list1:
            word_list.append(word)
    return word_list
#print(df)#打印df
#df[‘index‘]=0:(len(df)-1)#给文章一个训练id号
##训练Doc2vec模型
import gensim
#import multiprocessing
#import logging
LabeledSentence = gensim.models.doc2vec.LabeledSentence
#先把所有文档的路径存进一个 array 中,docLabels:
from os import listdir

评论

共有 条评论

相关资源