• 大小: 8.74MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-06
  • 语言: 其他
  • 标签:

资源简介

可以实现网页的爬取,到分词,词语的向量化

资源截图

代码片段和文件信息

package fenci;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
//读取文本文件,并进行输出txt
public class READ {

public static String txt2String(File file){
String result = ““;
try{
BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取文件
    String s = null;
    while((s = br.readLine())!=null){//使用readLine方法,一次读一行
     result = result+s+“结束“+“\n“;
     }
    br.close();    
    }catch(Exception e){
     e.printStackTrace();
     }
return result;
}
    
/*
  public static void main(String[] args){
File file = new File(“E:/数据挖掘/分词/分词文件文档/test1.txt“);
System.out.println(txt2String(file));
}
   */
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-03-28 22:47  2\
     文件        7154  2016-03-28 22:46  2\moviedoubancomsubject1889243reviewsstart148filterlimit20.txt
     文件        7158  2016-03-28 22:46  2\moviedoubancomsubject1889243reviewsstart188filterlimit20.txt
     目录           0  2016-03-28 22:47  2\分词后\
     文件       11659  2016-03-28 22:46  2\分词后\fenci.doc
     文件       39211  2016-03-28 22:46  2\分词后\javaVector.doc
     文件       30189  2016-03-28 22:26  2\分词后\javaVector.txt
     文件       27954  2016-03-24 16:32  2\分词后\vectors_good.bin
     目录           0  2016-03-28 22:47  2\词向量\
     文件       46897  2016-03-28 22:46  2\词向量\cixiangliang.doc
     目录           0  2016-03-23 22:04  WebSpider_Fenci_Word2vec\
     文件        2074  2016-01-25 21:30  WebSpider_Fenci_Word2vec\.classpath
     文件         400  2016-01-25 15:47  WebSpider_Fenci_Word2vec\.project
     目录           0  2016-02-05 16:52  WebSpider_Fenci_Word2vec\.settings\
     文件        1832  2016-03-23 21:56  WebSpider_Fenci_Word2vec\.settings\org.eclipse.core.resources.prefs
     文件         598  2016-01-25 15:47  WebSpider_Fenci_Word2vec\.settings\org.eclipse.jdt.core.prefs
     目录           0  2016-01-25 15:48  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\
     目录           0  2016-02-05 16:52  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\
     目录           0  2016-02-05 16:52  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\
     文件        1728  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\beanybaby
     文件        1917  2006-09-17 07:24  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\beanybaby.cmd
     文件        1348  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\filterbuilder
     文件        2140  2006-09-17 07:24  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\filterbuilder.cmd
     文件        1646  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\lexer
     文件        1722  2006-09-17 07:24  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\lexer.cmd
     文件        1708  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\parser
     文件        1905  2006-09-17 07:24  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\parser.cmd
     文件        1803  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\sitecapturer
     文件        2116  2006-09-17 21:03  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\sitecapturer.cmd
     文件        1338  2006-09-23 16:30  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\thumbelina
     文件        2118  2006-09-17 07:24  WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\thumbelina.cmd
............此处省略199个文件信息

评论

共有 条评论

相关资源