• 大小:
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2022-06-25
  • 语言: 其他
  • 标签: 采集器  大数据  

资源简介

火车采集器V9

资源截图

代码片段和文件信息

#-*-coding:utf-8-*- 
import sysimportlib
from urllib import unquote
import json
import sys 
reload(sys) 
sys.setdefaultencoding(‘utf8‘) 

if len(sys.argv)!= 5:
    print “argv lenth err 命令行参数长度不为5“
    sys.exit()
else:
    LabelCookie = unquote(sys.argv[1])
    LabelUrl = unquote(sys.argv[2])
    #PageType为ListContentPages分别代表列表页,内容页,多页http请求处理,Save代表内容处理
    PageType=sys.argv[3]
    SerializerStr = unquote(sys.argv[4])
    if (SerializerStr[0:2] != ‘‘‘{“‘‘‘):
        file_object = open(SerializerStr)
        try:
            SerializerStr = file_object.read()
            SerializerStr = unquote(SerializerStr)
        finally:
            file_object.close()
    LabelArray = json.loads(SerializerStr)

#以下是用户编写代码区域
    if(PageType==“Save“):
        if(LabelArray[‘标题‘]):
            LabelArray[‘标题‘]=‘这是Python插件处理的标题‘
    else:
        LabelArray[‘Html‘]=‘当前页面的网址为:‘+ LabelUrl +“\r\n页面类型为:“ + PageType + “\r\nCookies数据为:“+LabelCookie+“\r\n接收到的数据是:“ + LabelArray[‘Html‘]
        

#以上是用户编写代码区域
    LabelArray = json.dumps(LabelArray)
    print LabelArray

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-04-08 15:11  火车采集器V9\
     文件      165888  2018-04-09 15:43  火车采集器V9\CodeEditor.exe
     目录           0  2018-07-26 10:19  火车采集器V9\Configuration\
     目录           0  2018-05-08 16:00  火车采集器V9\Configuration\CategoryDir\
     文件         117  2018-05-04 11:15  火车采集器V9\Configuration\CategoryDir\15.txt
     文件         140  2015-08-04 15:51  火车采集器V9\Configuration\CategoryDir\2.txt
     文件         117  2018-05-04 11:08  火车采集器V9\Configuration\CategoryDir\65.txt
     文件         117  2018-05-04 14:12  火车采集器V9\Configuration\CategoryDir\66.txt
     文件        1560  2018-05-11 12:43  火车采集器V9\Configuration\CategoryDir\67.txt
     文件           0  2014-08-15 17:33  火车采集器V9\Configuration\Dict_NotAllowed.txt
     文件       17786  2014-08-15 17:33  火车采集器V9\Configuration\Dict_Stopwords.txt
     文件       75389  2014-08-15 17:33  火车采集器V9\Configuration\Dict_Synonym.txt
     文件          31  2014-08-15 17:33  火车采集器V9\Configuration\Dict_User.txt
     文件           3  2014-08-15 17:33  火车采集器V9\Configuration\Dict_Wildcard.txt
     文件         556  2015-06-30 21:21  火车采集器V9\Configuration\FileDetect.txt
     文件         230  2018-07-25 17:55  火车采集器V9\Configuration\LoginConfig.ini
     文件        2061  2018-07-26 13:20  火车采集器V9\Configuration\Option.xml
     目录           0  2018-04-08 14:26  火车采集器V9\Configuration\Synonym\
     文件          29  2015-08-15 15:45  火车采集器V9\Configuration\Synonym\词库1.txt
     文件          34  2015-08-15 15:45  火车采集器V9\Configuration\Synonym\词库12.txt
     文件           3  2015-08-17 15:08  火车采集器V9\Configuration\TaskResume.txt
     目录           0  2018-05-14 15:59  火车采集器V9\Configuration\TestLabel\
     文件         243  2018-05-04 11:07  火车采集器V9\Configuration\TestLabel\PHPCMS V9 资讯_w.xml
     文件         931  2018-05-14 17:04  火车采集器V9\Configuration\TestLabel\database.xml
     文件         277  2018-05-08 17:19  火车采集器V9\Configuration\TestLabel\phpcms9_r_chinajuva_w.xml
     文件         323  2018-05-04 11:41  火车采集器V9\Configuration\TestLabel\phpcms9_s_chinajuva_w.xml
     文件         492  2018-05-07 16:33  火车采集器V9\Configuration\TestLabel\soyoung_d.xml
     文件         341  2018-05-08 17:19  火车采集器V9\Configuration\TestLabel\web.xml
     文件         529  2018-05-14 17:04  火车采集器V9\Configuration\TestLabel\北京悦美第二步-顾客日记_d.xml
     文件         822  2018-05-07 16:34  火车采集器V9\Configuration\TestLabel\北京新氧第一步_d.xml
     文件         527  2018-05-08 11:27  火车采集器V9\Configuration\TestLabel\北京新氧第三步-投入_d.xml
............此处省略688个文件信息

评论

共有 条评论