• 大小: 2.00KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2024-05-09
  • 语言: Python
  • 标签: 爬虫  百度  图片  

资源简介

百度图片爬虫(python版)

资源截图

代码片段和文件信息

import urllib.request
import urllib.parse
import re
import os

# 添加header,其中Referer是必须的否则会返回403错误,User-Agent是必须的,这样才可以伪装成浏览器进行访问
header = \
    {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/56.0.2924.87 Safari/537.36‘
        “referer“: “https://image.baidu.com“
    }
url = “https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pageNum}&rn=30&gsm=1e00000000001e&1490169411926=“
keyword = input(“请输入想要爬取的图片搜索关键字:“)
# 转码
keyword = urllib.parse.quote(keyword ‘utf-8‘)

n = 0
j = 0

while (n < 3000):
    error = 0
    n += 30
    # url
    url1 = url.format(word=keyword pageNum=str(n))
    # 获取请求
    rep = urllib.request.Request

评论

共有 条评论