资源简介

多线程下载网站图片

资源截图

代码片段和文件信息

#python2.7 打造多线程网络爬虫
#库:threading  安装lxmlrequestsbs4(beautifulsoup 4)
# -*- coding:utf-8 -*-
import requeststhreading#多线程
from lxml import etree#解析方式
from bs4 import BeautifulSoup
#获取源码
def get_html(url):
#url=‘https://www.doutula.com/article/list/?page=1‘
headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2595.400 QQBrowser/9.6.10872.400‘}
request=requests.get(url=urlheaders=headers)
response=request.content#获取源码
#print response
return response
#找到图片的超链接获取源码
#获取外页  获取超链接
def get_img_html(html):
soup=BeautifulSoup(html‘lxml‘)#解析网页方式自带html.parser
all_a=soup.find_all(‘a‘class_=‘list-group-item‘)#找到a标签
for i in all_a:#i是链接
img_html=get_html(i[‘href‘])#获取超链接源码
g

评论

共有 条评论