• 大小: 1.32MB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2023-11-15
  • 语言: 其他
  • 标签: IK分词  tfidf特征  

资源简介

代码对10个txt文件进行分词、去除停止词,并提取每个词的tfidf特征值输出

资源截图

代码片段和文件信息

//input为HashMap>
//output为ArrayList>  为各行的tfidf值

import java.util.ArrayList;
import java.util.HashMap;

public class FeatureArray {
    private HashMap strNumOfLines = new HashMap<>();   //该词出现在哪几个帖子中
    //private ArrayList>> featureLinesList = new ArrayList>>();
    private int totalLines = 0;

    public FeatureArray(ArrayList> txtLinesInput) {
       // ArrayList ArrayListTmp = new ArrayList();
        //HashMap HashMapTmp = new HashMap();  //HashMapTmp中存一行的tf

        for (int i = 0;i < txtLinesInput.size();i++) {
            ArrayList ArrayListTmp = new ArrayList();
            ArrayListTmp = txtLinesInput.get(i);         //ArrayListTmp中存某个txt中所有的行
            for (int j = 0; j < ArrayListTmp.size(); j++) {
                HashMap HashMapTmp = new HashMap();  //HashMapTmp中存一行的tf
                totalLines++;
                HashMapTmp = ArrayListTmp.get(j).getTf();
                for (String s : HashMapTmp.keySet()) {
                    if (strNumOfLines.containsKey(s))
                        strNumOfLines.put(s strNumOfLines.get(s) + 1);
                    else
                        strNumOfLines.put(s 1);
                }
                //HashMapTmp.clear();
            }
            //ArrayListTmp.clear();
        }


    }

        public HashMap getStrNumOfLines() {
            return strNumOfLines;
        }

        public int getTotalLines(){
            return totalLines;
        }


}



 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

    ..A..H.     10244  2015-10-04 16:38  TextProcessing\.DS_Store

    ..A..H.        14  2015-09-28 09:47  TextProcessing\.idea\.name

     文件        782  2015-09-28 11:53  TextProcessing\.idea\compiler.xml

     文件         76  2015-09-28 09:47  TextProcessing\.idea\copyright\profiles_settings.xml

     文件        159  2015-09-28 11:52  TextProcessing\.idea\encodings.xml

     文件        271  2015-09-28 09:52  TextProcessing\.idea\libraries\IKAnalyzer2012_u6.xml

     文件        247  2015-09-29 21:27  TextProcessing\.idea\libraries\IKAnalyzer2012_u61.xml

     文件        236  2015-09-28 10:36  TextProcessing\.idea\libraries\lucene_core_3_6_0.xml

     文件       2738  2015-09-29 12:16  TextProcessing\.idea\misc.xml

     文件        268  2015-09-28 09:47  TextProcessing\.idea\modules.xml

     文件       8792  2015-09-28 12:28  TextProcessing\.idea\uiDesigner.xml

     文件        164  2015-09-28 09:47  TextProcessing\.idea\vcs.xml

     文件      46869  2015-10-07 18:45  TextProcessing\.idea\workspace.xml

    ..A..H.      6148  2015-10-04 16:20  TextProcessing\lily\.DS_Store

    ..A..H.      4096  2015-10-07 16:37  TextProcessing\lily\._.DS_Store

    ..A..H.      4096  2015-10-07 16:37  TextProcessing\lily\._Basketball.txt

    ..A..H.      5148  2015-10-07 16:37  TextProcessing\lily\._WarAndPeace.txt

     文件     141368  2015-10-04 16:20  TextProcessing\lily\Basketball.txt

     文件     349550  2014-09-17 18:36  TextProcessing\lily\D_Computer.txt

     文件      85270  2014-09-17 18:39  TextProcessing\lily\FleaMarket.txt

     文件     147299  2014-09-17 18:40  TextProcessing\lily\Girls.txt

     文件     321323  2014-09-17 18:45  TextProcessing\lily\JobExpress.txt

     文件      80899  2014-09-17 18:35  TextProcessing\lily\Mobile.txt

     文件     112748  2014-09-17 18:36  TextProcessing\lily\Stock.txt

     文件     112149  2014-09-17 18:37  TextProcessing\lily\V_Suggestions.txt

     文件     120245  2015-10-04 16:19  TextProcessing\lily\WarAndPeace.txt

     文件     109592  2014-09-17 18:29  TextProcessing\lily\WorldFootball.txt

    ..A..H.      6148  2015-10-04 16:38  TextProcessing\out\.DS_Store

    ..A..H.      4096  2015-10-07 16:37  TextProcessing\out\._.DS_Store

    ..A..H.      6148  2015-10-04 16:38  TextProcessing\out\production\.DS_Store

............此处省略40个文件信息

评论

共有 条评论