• 大小: 17.36MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-22
  • 语言: Python
  • 标签: 爬虫  python  

资源简介

这是一个python专利爬虫,使用中介者模式防止目标网站长时间无响应

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
Created on 2017/3/19

@author: will4906
“““
import time
import os
import sys

from controller.ProgressController import ProgressController
from enums.Config import Config
from util.FileUtil import FileUtil
from util.TimeUtil import TimeUtil
from util.excel.ExcelUtil import ExcelUtil


def initProgress():
    try:
        os.mkdir(“output“)
    except Exception as e:
        pass
    try:
        os.mkdir(“log“)
    except:
        pass


def init_excel_config():
    title_list = [“专利类型“ “专利名称“ “法律状态“ “法律状态最后修改日期“ “申请公布日/授权公告日“ “申请号“ “申请日“ “申请人/专利权人“ “发明人“]
    editor = ExcelUtil(Config.FILE_NAME).edit()
    sh = editor.getSheet(0)
    for index each in enumerate(title_list):
        sh.write(0 index each)
    editor.commit()
    return


if __name__ == ‘__main__‘:
    initProgress()
    # 这句非常重要,提高python的递归深度,否则递归900次就炸了
    sys.setrecursionlimit(1000000)  # 例如这里设置为一百万
    startDate = input(“请输入公布日开始日期如{0}:“.format(TimeUtil.getFormatTime(“%Y-%m-%d“)))
    Config.writeLog(“程序启动,输入的公布开始日期为{0}“.format(startDate))
    init_excel_config()

    progress = ProgressController(Config.BROSWER_NAME)
    Config.writeLog(“启动{0}浏览器“.format(Config.BROSWER_NAME))
    queryInfo = progress.getQueryInfo()
    queryInfo.setStartDate(startDate)

    progress.startProgress()

    # print(excel)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-04-22 21:36  .idea\
     目录           0  2017-03-24 14:53  .idea\inspectionProfiles\
     文件         241  2017-03-24 13:30  .idea\inspectionProfiles\profiles_settings.xml
     文件         712  2017-03-24 14:53  .idea\inspectionProfiles\Project_Default.xml
     目录           0  2017-04-01 14:40  .idea\markdown-navigator\
     文件        4008  2017-04-01 14:40  .idea\markdown-navigator.xml
     文件         106  2017-04-01 14:40  .idea\markdown-navigator\profiles_settings.xml
     文件         693  2017-03-21 01:36  .idea\misc.xml
     文件         278  2017-03-21 01:36  .idea\modules.xml
     文件         398  2017-03-21 01:36  .idea\PatentCrawler.iml
     文件         180  2017-03-21 01:39  .idea\vcs.xml
     文件       55000  2017-04-22 21:36  .idea\workspace.xml
     目录           0  2017-04-02 16:17  controller\
     文件       10276  2017-04-02 16:17  controller\ProgressController.py
     文件          76  2017-03-24 02:17  controller\__init__.py
     目录           0  2017-04-21 17:35  controller\__pycache__\
     文件        8363  2017-04-21 17:35  controller\__pycache__\ProgressController.cpython-35.pyc
     文件         197  2017-03-24 22:14  controller\__pycache__\__init__.cpython-35.pyc
     目录           0  2017-04-22 15:09  entity\
     文件        6489  2017-04-22 15:08  entity\CollectionResult.py
     文件        2313  2017-03-25 02:32  entity\ItemData.py
     文件        1501  2017-03-26 16:16  entity\ProgressInfo.py
     文件        1152  2017-04-22 15:09  entity\QueryInfo.py
     文件          76  2017-03-24 02:13  entity\__init__.py
     目录           0  2017-04-22 15:08  entity\__pycache__\
     文件        4525  2017-04-22 15:08  entity\__pycache__\CollectionResult.cpython-35.pyc
     文件        3776  2017-03-25 02:36  entity\__pycache__\ItemData.cpython-35.pyc
     文件        2856  2017-03-26 16:27  entity\__pycache__\ProgressInfo.cpython-35.pyc
     文件        1162  2017-04-22 15:02  entity\__pycache__\QueryInfo.cpython-35.pyc
     文件         193  2017-03-24 22:14  entity\__pycache__\__init__.cpython-35.pyc
     目录           0  2017-04-22 14:57  enums\
............此处省略42个文件信息

评论

共有 条评论