资源简介
通过wiki生成word2vec模型的例子,使用的中文 wiki资料
代码片段和文件信息
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from __future__ import print_function
import logging
import os.path
import six
import sys
from gensim.corpora import WikiCorpus
if __name__ == ‘__main__‘:
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format=‘%(asctime)s: %(levelname)s: %(message)s‘)
logging.root.setLevel(level=logging.INFO)
logger.info(“running %s“ % ‘ ‘.join(sys.argv))
# check and process input arguments
if len(sys.argv) != 3:
print(“Using: python process_wiki.py enwiki.xxx.xml.bz2 wiki.en.text“)
sys.exit(1)
inp outp = sys.argv[1:3]
space = “ “
i = 0
output = open(outp ‘w‘)
wiki = WikiCorpus(inp lemmatize=False dictionary={})
for text in wiki.get_texts():
if six.PY3:
output.write(bytes(‘ ‘.join(text) ‘utf-8‘).decode(‘utf-8‘) + ‘\n‘)
# ###another method###
# output.write(
# space.join(map(lambda x:x.decode(“utf-8“) text)) + ‘\n‘)
else:
output.write(space.join(text) + “\n“)
i = i + 1
if (i % 10000 == 0):
logger.info(“Saved “ + str(i) + “ articles“)
output.close()
logger.info(“Finished Saved “ + str(i) + “ articles“)
- 上一篇:三相全控桥Flash动画
- 下一篇:HS8546V 华为光猫Shell补全补丁
相关资源
- bp神经网络源代码,可直接运行
- 连续hopfield神经网络解决TSP问题
- 改进的BP神经网络算法
- 基于bp神经网络的表情识别
- 神经网络仿真工具源代码
- 使用卷积神经网络在e + e-对撞机上改
- 用labview编写的一个神经网络Vi图
- 基于改进的SOM神经网络在产品配置中
- 深度学习卷积神经网络可检测和分类
- 标量场理论的回归和生成神经网络
- 基于ARIMA、BP神经网络与GM的组合模型
- 车辆自适应神经网络编队控制
- 基于RBF神经网络在线辨识的永磁同步
- 基于BP人工神经网络的SmFeN永磁材料工
- 融合粗糙集和人工神经网络的产品敏
- 基于粗糙集神经网络的数据挖掘在门
- Google OCR API源代码和神经网络识别OC
- 信息融合、神经网络-模糊推理理论及
- 基于双隐含层BP神经网络的预测
- SOM神经网络 PPT
- 小波神经网络预测模型代码
- 基于PSO优化BP神经网络的水质预测研究
- 基于神经网络的时间序列预测方法
- BP神经网络算法逼近一个正弦函数
- Hopfield神经网络解决 TSP问题
- 基于神经网络的数字水印
- 基于概率神经网络的图匹配算法研究
- 基于神经网络的身份证号码识别算法
- 机器学习方法R实现-用决策树、神经网
- 基于神经网络及Logistic回归的混合信用
评论
共有 条评论