• 大小: 3KB
    文件类型: .py
    金币: 2
    下载: 1 次
    发布日期: 2021-06-13
  • 语言: Python
  • 标签: python  爬虫  

资源简介

用python爬取网络资源图片,学习的小例子。网络爬虫案例

资源截图

代码片段和文件信息

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import os

all_url = ‘http://www.mzitu.com‘


#http请求头
Hostreferer = {
    ‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘
    ‘Referer‘:‘http://www.mzitu.com‘
    }
Picreferer = {
    ‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘
    ‘Referer‘:‘http://i.meizitu.net‘
}
#此请求头破解盗链

start_html = requests.get(all_urlheaders = Hostreferer)

#保存地址
path = ‘picture/‘

#找寻最大页数
soup = BeautifulSoup(start_html.text“html.parser“)
page = soup.find_all(‘a‘class_=‘page-numbers‘)
max_page = page[-2].text


same_url = ‘http://www.mzitu.com/page/‘
for n in range(1int(max_page)+1):
    ul = same_url+str(n)
    start_html = requests.get(ul headers = Hostreferer)
    soup = BeautifulSoup(start_html.text“html.parser“)
    all_a = soup.find(‘div‘class_=‘postlist‘).find_all(‘a‘target=‘_blank‘)
    for a in all_a:
        title = a.get_text() #提取文本
        if(title != ‘‘):
            print(“准备扒取:“+title)
           
            #win不能创建带?的目录
            if(os.path.exists(path+title.strip().replace(‘?‘‘‘))):
                #print(‘目录已存在‘)
                flag=1
            else:
                os.makedirs(path + title.s

评论

共有 条评论