• 大小: 34.47MB
    文件类型: .rar
    金币: 2
    下载: 1 次
    发布日期: 2023-08-07
  • 语言: Java
  • 标签: 停词  HanLP  分词  聚类  

资源简介

HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

资源截图

代码片段和文件信息

package com.huaban.analysis.jieba.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;

import org.junit.Test;

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.mining.cluster.ClusterAnalyzer;
import com.hankcs.hanlp.seg.common.Term;

import config.Constant;
public class HanLPTest {
   /* public static void main(String[] args)throws Exception {
        File file = new File(“D:/HanLP/a.txt“);//Test文件
        File file1 = new File(“D:/HanLP/stop_words.txt“);//停用词
        File file2=new File(“D:/HanLP/aend.txt“);
        BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取Test文件
        BufferedReader br1 = new BufferedReader(new FileReader(file1));//构造一个BufferedReader类来读取totalstop文件
        String string = null;
        String string1 = null;
        PrintWriter pfp= new PrintWriter(file2);
        ArrayList stopword = new ArrayList();
        while ((string1 = br1.readLine()) != null) {//使用readLine方法,一次读一行 读取停用词
            stopword.add(string1);
        }
        br1.close();
        //使用readLine方法,一次读一行,读取待处理文本
        while ((string = br.readLine()) != null) {
            ArrayList TermList = new ArrayList();
            StringBuilder sb = new StringBuilder();
            HanLP.Config.ShowTermNature = false;    // 关闭词性显示
            List termList = HanLP.segment(string);//调用HanLP.segment()对句子进行分词处理
           for(int i = 0;i < termList.size(); i++){
            TermList.add(termList.get(i).toString());
           }
            TermList.removeAll(stopword);
             //System.out.println(TermList);
            for(int i = 0;i < TermList.size(); i++) {
                sb.append(TermList.get(i));
                sb.append(“ “);
                sb.toString();
            }
            pfp.print(sb);
            pfp.write(“\r\n“);
            pfp.flush();
        }
        pfp.close();
        br.close();
    }
    */
    /**
     * 测试方法
     */
    @Test
    public void test() {
     String str[] = {“RCP““KIC““RCV““JDT““RIS““KCS““PMC““RRI““LHP““KCP““CFI““CEX““GGR““SWD““LHQ““RGL““CRF““ASG““SEC““PTR““APA““DVN““EPP““SAP““REN““VVP““ATE““EAS““AHP““GSY““RPN““GEV““GSS““GRE““DEL““TEP““RIC““KRT““RPE““DSI““RRB““ADG““RRA““GCT““GEX““DVL“};
     //查找systemcode中的关键词
     /*for (String string : str) {
     List keywordList = extractionKeywords(string);
}*/
     //生成聚

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件     782530  2019-04-20 12:58  hanlp-1.7.3-release\hanlp-1.7.3-sources.jar

     文件    1245864  2019-04-20 12:58  hanlp-1.7.3-release\hanlp-1.7.3.jar

     文件       2455  2019-04-20 12:58  hanlp-1.7.3-release\hanlp.properties

     文件      17172  2019-05-20 10:23  hanlp-1.7.3-release\HanLPTest.java

     文件     550584  2019-05-14 10:27  hanlp-1.7.3-release\代码中的D盘文件\HanLP\a.txt

     文件     526931  2019-05-16 09:11  hanlp-1.7.3-release\代码中的D盘文件\HanLP\aend.txt

     文件    1134831  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.mini.txt

     文件    6083120  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.mini.txt

     文件   45691395  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.txt

     文件   24032729  2019-05-14 11:35  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.txt.table.bin

     文件      35398  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.tr.txt

     文件    2162652  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.txt

     文件    6123248  2019-05-15 10:56  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.txt.bin

     文件      43242  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\CustomDictionary.txt

     文件         76  2019-05-15 11:04  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\MyWords.txt

     文件   16977464  2019-05-15 11:07  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\MyWords.txt.bin

     文件      15310  2019-05-17 15:55  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\stopwords.txt

     文件      19131  2019-05-15 16:19  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\stopwords.txt.bin

     文件     297405  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\上海地名.txt

     文件     778491  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\人名词典.txt

     文件     883582  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\全国地名大全.txt

     文件     907824  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\机构名词典.txt

     文件    3370144  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\现代汉语补充词库.txt

     文件        888  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\organization\nt.tr.txt

     文件     262324  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\organization\nt.txt

     文件      38753  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharTable.txt

     文件     131099  2019-05-15 09:47  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharTable.txt.bin

     文件      23030  2019-05-14 11:35  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharType.bin

     文件      16246  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\TagPKU98.csv

     文件        664  2019-05-14 11:32  hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\person\nr.tr.txt

............此处省略34个文件信息

评论

共有 条评论