资源简介

对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。

资源截图

代码片段和文件信息

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件    2259196  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\0.txt

     文件    2249561  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\1.txt

     文件    2248622  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\10.txt

     文件    1184161  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\11.txt

     文件    2290923  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\2.txt

     文件    2259271  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\3.txt

     文件    2259546  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\4.txt

     文件    2233001  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\5.txt

     文件    2261142  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\6.txt

     文件    2274512  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\7.txt

     文件    2226670  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\8.txt

     文件    2294141  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\9.txt

     文件    1518927  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\0.txt

     文件    1533872  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\1.txt

     文件    1479302  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\2.txt

     文件    1468445  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\3.txt

     文件    1546826  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\4.txt

     文件    1645931  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\5.txt

     文件      90106  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\6.txt

     文件    1624504  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\0.txt

     文件    1502492  2018-01-30 15:24  搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\1.txt

     文件    1301321  2018-01-30 15:24  搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\2.txt

     文件     955472  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\3.txt

     文件      50344  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\4.txt

     文件    2131445  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\0.txt

     文件    2136869  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\1.txt

     文件    2074956  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\2.txt

     文件    2288014  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\3.txt

     文件    2298830  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\4.txt

     文件    2275578  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\5.txt

............此处省略130个文件信息

评论

共有 条评论