doc2vec在线训练程序

大小: 2KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-06
语言: Python
标签: doc2vec

高速下载

资源简介

主要用于文本的量化处理，非常适合计算文本的相似度以及文本分类，相比于tf-idf更优。

资源截图

小图大图

代码片段和文件信息

import jieba
import pandas as pd
import gensim
import re
jieba.load_userdict（‘d:/data/stocks/数据/平安银行字典.txt‘）#加载结巴分词的词典（还需要把各股票的名字导入进去，今天进行）
jieba.load_userdict（‘d:/data/stocks/数据/股票名称.txt‘）
def cut_word（text）:
    ‘‘‘
    分词操作，返回一个文章的所有单词列表
    ‘‘‘
    #text=process_txt（str（text））
    #text=‘ ‘.join（text）
    text_list=re.split（u‘[^\u4e00-\u9fa50-9a-zA-Z]+‘ str（text））
    word_list=[]
    for sent in text_list:
        word_list1=jieba.cut（sent）
        for word in word_list1:
            word_list.append（word）
    return word_list
#print（df）#打印df
#df[‘index‘]=0:（len（df）-1）#给文章一个训练id号
##训练Doc2vec模型
import gensim
#import multiprocessing
#import logging
LabeledSentence = gensim.models.doc2vec.LabeledSentence
#先把所有文档的路径存进一个 array 中，docLabels：
from os import listdir

上一篇：arcgis python脚本，自动发布服务
下一篇：卷积LSTM代码

共有条评论

doc2vec在线训练程序

资源简介

资源截图

代码片段和文件信息

评论

相关资源