资源简介

用python语言写的一个网络爬虫程序,实现了爬取网站内的所有链接,可以用来对一个网站的受欢迎程度进行数据分析

资源截图

代码片段和文件信息

# encoding utf-8
# Function:acquire the link on the web page



import urllib.request
import re




r = re.compile(r‘href=“(http://www\.cnpythoner\.com.+?)“‘)#正则



def get_urls_and_save_from_contents(url):       #打开当前页面,筛选符合条件的网址
        try:
                req = urllib.request.Request(url)
                req.add_header(‘User-Agent‘‘Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.10586‘)
                response = urllib.request.urlopen(req)
                contents = response.read().decode(‘utf-8‘)
                g = []
   

评论

共有 条评论