• 大小: 1.76KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 爬取  小说  

资源简介

Python爬取小说网站

资源截图

代码片段和文件信息

import requests
import pymysql
from lxml import etree
import os

# 设计模式 -- 面向对象 继承、封装
class Spider(object):

    def start_request(self):
        # 1. 请求网站拿到HTML源代码,抽取小说名、小说链接 创建文件夹
        response = requests.get(“https://www.qidian.com/all“)
        html = etree.HTML(response.text)   # lxml 中的 etree 来解析 HTML
        Bigtit_list = html.xpath(‘//div[@class=“book-mid-info“]/h4/a/text()‘)
        Bigsrc_list = html.xpath(‘//div[@class=“book-mid-info“]/h4/a/@href‘)
        for Bigtit Bigsrc in zip(Bigtit_list Bigsrc_list):
            if os.path.exists(Bigtit) == False:
                os.mkdir(Bigtit)
            self.file_data(Bigtit Bigsrc)

    def file_data(self Bigtit Bigsrc):
        # 2. 请求小说拿到HTML源代码,抽取章名、章链接
        response = requests.get(“http:“ + Bigsrc)

评论

共有 条评论