• 大小: 1KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-06-01
  • 语言: Python
  • 标签:

资源简介

利用Python爬虫抓取网页上的图片,当遇到不合法的URL时,会自动处理异常,不会导致程序崩溃。直到下载完整个页面的图片,程序才会退出

资源截图

代码片段和文件信息

import urllib
import urllib.request
import re

#传入URL,返回该URL所指的文件的数据流
def download_page(url):
    headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML like Gecko) Chrome/47.0.2526.80 Safari/537.36‘} #对爬虫进行伪装
    request = urllib.request.Request(url headers=headers)  #构建请求
    response = urllib.request.urlopen(request)  #获取服务器响应
    data = response.read()
    return data

def get_image(html):
    regx = r‘http://[\S][^:]*\.jpg‘
    pattern = re.compile(regx re.I)  #忽略大小写
    get_img = re.fin

评论

共有 条评论