• 大小: 2KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: Python
  • 标签: 爬虫  Python  

资源简介

简单的爬虫程序,以某小说网站的一个小说为例,对其进行爬取

资源截图

代码片段和文件信息

# 导入模块
from lxml import html
import requests
import re
import os.path

starturl = ‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘ #初始URL
dir = ‘d:\\爬虫目录\\‘  #文件存放目录


page = requests.get(starturl timeout=600)  # 请求网页数据
if page.status_code == requests.codes.ok:   # 如果网页传输正常
    m = [] # m是一个空的列表
    tree = html.fromstring(page.content)  # 将网页解析为一个树状结构
    elem = tree.xpath(‘//*[@id=“main“]/div[2]/dl‘) #在树中导航,找到对应的节点列表
    dl = elem[0]  #定位到其中的第一个节点
    for dd in dl.xpath(‘./dd‘):  #定位子节点
        href = dd.xpath(‘./a/@href‘)
        if href:
            m.append(‘http://www.wuxia.net.cn‘+‘‘.join(href))
    print(m)

    

评论

共有 条评论