• 大小: 11.83MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-21
  • 语言: 其他
  • 标签:

资源简介

结巴分词包软件

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
from distutils.core import setup
LONGDOC = “““
jieba
=====

“结巴”中文分词:做最好的 Python 中文分词组件

“Jieba“ (Chinese for “to stutter“) Chinese text segmentation: built to
be the best Python Chinese word segmentation module.

完整文档见 ‘‘README.md‘‘

GitHub: https://github.com/fxsjy/jieba

特点
====

-  支持三种分词模式:

   -  精确模式,试图将句子最精确地切开,适合文本分析;
   -  全模式,把句子中所有的可以成词的词语都扫描出来
      速度非常快,但是不能解决歧义;
   -  搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

-  支持繁体分词
-  支持自定义词典
-  MIT 授权协议

在线演示: http://jiebademo.ap01.aws.af.cm/

安装说明
========

代码对 Python 2/3 均兼容

-  全自动安装: ‘‘easy_install jieba‘‘ 或者 ‘‘pip install jieba‘‘ / ‘‘pip3 install jieba‘‘
-  半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行
   python setup.py install
-  手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
-  通过 ‘‘import jieba‘‘ 来引用

“““

setup(name=‘jieba‘
      version=‘0.38‘
      description=‘Chinese Words Segementation Utilities‘
      long_description=LONGDOC
      author=‘Sun Junyi‘
      author_email=‘ccnusjy@gmail.com‘
      url=‘https://github.com/fxsjy/jieba‘
      license=“MIT“
      classifiers=[
        ‘Intended Audience :: Developers‘
        ‘License :: OSI Approved :: MIT License‘
        ‘Operating System :: OS Independent‘
        ‘Natural Language :: Chinese (Simplified)‘
        ‘Natural Language :: Chinese (Traditional)‘
        ‘Programming Language :: Python‘
        ‘Programming Language :: Python :: 2‘
        ‘Programming Language :: Python :: 2.6‘
        ‘Programming Language :: Python :: 2.7‘
        ‘Programming Language :: Python :: 3‘
        ‘Programming Language :: Python :: 3.2‘
        ‘Programming Language :: Python :: 3.3‘
        ‘Programming Language :: Python :: 3.4‘
        ‘Topic :: Text Processing‘
        ‘Topic :: Text Processing :: Indexing‘
        ‘Topic :: Text Processing :: Linguistic‘
      ]
      keywords=‘NLPtokenizingChinese word segementation‘
      packages=[‘jieba‘]
      package_dir={‘jieba‘:‘jieba‘}
      package_data={‘jieba‘:[‘*.*‘‘finalseg/*‘‘analyse/*‘‘posseg/*‘]}


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-08-05 02:02  jieba-master\
     文件         483  2016-08-05 02:02  jieba-master\.gitattributes
     文件        2055  2016-08-05 02:02  jieba-master\.gitignore
     文件        6700  2016-08-05 02:02  jieba-master\Changelog
     文件        1075  2016-08-05 02:02  jieba-master\LICENSE
     文件          32  2016-08-05 02:02  jieba-master\MANIFEST.in
     文件       29105  2016-08-05 02:02  jieba-master\README.md
     目录           0  2016-08-05 02:02  jieba-master\extra_dict\
     文件     8583143  2016-08-05 02:02  jieba-master\extra_dict\dict.txt.big
     文件     1552161  2016-08-05 02:02  jieba-master\extra_dict\dict.txt.small
     文件     4086745  2016-08-05 02:02  jieba-master\extra_dict\idf.txt.big
     文件         222  2016-08-05 02:02  jieba-master\extra_dict\stop_words.txt
     目录           0  2016-08-05 02:02  jieba-master\jieba\
     文件       18816  2016-08-05 02:02  jieba-master\jieba\__init__.py
     文件        2371  2016-08-05 02:02  jieba-master\jieba\__main__.py
     文件        1222  2016-08-05 02:02  jieba-master\jieba\_compat.py
     目录           0  2016-08-05 02:02  jieba-master\jieba\analyse\
     文件         501  2016-08-05 02:02  jieba-master\jieba\analyse\__init__.py
     文件        1403  2016-08-05 02:02  jieba-master\jieba\analyse\analyzer.py
     文件     6200957  2016-08-05 02:02  jieba-master\jieba\analyse\idf.txt
     文件        3772  2016-08-05 02:02  jieba-master\jieba\analyse\textrank.py
     文件        4310  2016-08-05 02:02  jieba-master\jieba\analyse\tfidf.py
     文件     5071852  2016-08-05 02:02  jieba-master\jieba\dict.txt
     目录           0  2016-08-05 02:02  jieba-master\jieba\finalseg\
     文件        2397  2016-08-05 02:02  jieba-master\jieba\finalseg\__init__.py
     文件     1275441  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_emit.p
     文件     1321732  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_emit.py
     文件         109  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_start.p
     文件          93  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_start.py
     文件         260  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_trans.p
     文件         241  2016-08-05 02:02  jieba-master\jieba\finalseg\prob_trans.py
............此处省略52个文件信息

评论

共有 条评论

相关资源