网络爬虫python源代码

大小: 2KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-06
语言: Python
标签: 爬虫 Python

高速下载

资源简介

简单的爬虫程序，以某小说网站的一个小说为例，对其进行爬取

资源截图

小图大图

代码片段和文件信息

# 导入模块
from lxml import html
import requests
import re
import os.path

starturl = ‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘ #初始URL
dir = ‘d:\\爬虫目录\\‘  #文件存放目录


page = requests.get（starturl timeout=600）  # 请求网页数据
if page.status_code == requests.codes.ok:   # 如果网页传输正常
    m = [] # m是一个空的列表
    tree = html.fromstring（page.content）  # 将网页解析为一个树状结构
    elem = tree.xpath（‘//*[@id=“main“]/div[2]/dl‘） #在树中导航，找到对应的节点列表
    dl = elem[0]  #定位到其中的第一个节点
    for dd in dl.xpath（‘./dd‘）:  #定位子节点
        href = dd.xpath（‘./a/@href‘）
        if href:
            m.append（‘http://www.wuxia.net.cn‘+‘‘.join（href））
    print（m）

上一篇：实现chi、ig、mi计算python
下一篇：朴素贝叶斯代码

共有条评论

网络爬虫python源代码

资源简介

资源截图

代码片段和文件信息

评论

相关资源