资源简介

请确保D盘有一个 image文件夹 用于存放采集到的图片

资源截图

代码片段和文件信息

import requests
from lxml import etree
import time
 
 
class Baiduspider(object):
    def __init__(self):
        self.baseurl = ‘https://tieba.baidu.com/‘
        self.url = ‘https://tieba.baidu.com/f?‘
        self.headers = {‘User-Agent‘:‘Mozilla/5.0‘}
     
    #获取帖子链接
    def getPageUrl(selfurl):
        res = requests.get(urlheaders=self.headers)
        res.encoding= ‘utf-8‘
        html = res.text
        parseHtml = etree.HTML(html)
        # 2. 解析对象调用xpath
        r1 = parseHtml.xpath(‘//div[@class=“t_con cleafix“]/div/div/div/a/@href‘)
        for t in r1:
            self.getImaUrl(t)
         
    #获取帖子中图片的连接
    def getImaUrl(selft):
        res = requests.get(self.baseurl+theaders=self.headers)
        res.encoding= ‘utf-8‘
        html = res.text
        parseHtml = etree.HTML(html)
        # 2. 解析对象调用xpath.  两个解析式不确定 第一个不能用就换第二个
        r2 = parseHtml.xpath(‘//div[

评论

共有 条评论