• 大小: 376KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-05-12
  • 语言: 其他
  • 标签: 哈工大  

资源简介

中文自动分词 1. 使用任意分词方法实现汉语自动分词; 2. 给出至少1000个句子的分词结果(以附件形式); 3. 计算出分词结果的正确率,并给出计算依据; 4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力; 5. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
import jieba
import codecs
with open(‘input.txt‘ ‘r‘) as f:
    for line in f:
        seg = jieba.cut(line.strip() cut_all = False)
        s= ‘ ‘.join(seg)
        m=list(s)
        with open(‘source.txt‘‘a+‘)as f:
            for word in m:
                f.write(word.encode(‘utf-8‘))
            f.write(‘\n‘)


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      55749  2018-05-19 23:21  中文信息处理-实验二\1.txt

     文件      56251  2018-05-19 23:21  中文信息处理-实验二\2.txt

     文件      32579  2018-05-19 23:21  中文信息处理-实验二\source.txt

     文件        357  2018-05-24 15:18  中文信息处理-实验二\work2.py

     文件        534  2018-05-19 23:21  中文信息处理-实验二\work22.py

     文件     375808  2018-07-06 16:21  中文信息处理-实验二\中文信息处理-实验二.doc

     目录          0  2018-07-06 16:22  中文信息处理-实验二

----------- ---------  ---------- -----  ----

               521278                    7


评论

共有 条评论