• 大小: 636KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-06-14
  • 语言: 其他
  • 标签: 爬虫  

资源简介

根据空气质量历史数据查询官网: https://www.aqistudy.cn/historydata/,通过爬虫+人工手动修改得到的最全面的、最新的空气质量历史数据

资源截图

代码片段和文件信息

import requests
from lxml import etree
import urllib.parse
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/64.0.3282.204 Safari/537.36‘
}
url = “https://www.aqistudy.cn/historydata/“
response = requests.get(url headers=headers)
text = response.content.decode(‘utf-8‘)
html = etree.HTML(text)
city_set = list()
citys = html.xpath(“//div[@class=‘all‘]/div/ul“)
for city in citys:
    messages = city.xpath(“.//li“)
    for message in messages:
        city_name = message.xpath(“.//a/text()“)
        city_name = ““.join(city_name)
        city_set.append(city_name)
print(city_set)

import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS(r‘E:\\Tools\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe‘)
base_url = ‘https://www.aqistudy.cn/historydata/monthdata.php?city=‘
for k in range(0len(city_set)):
    city = city_set[k]
    print(city)
    weburl = (‘%s%s‘ % (base_url parse.quote(city)))
    print(weburl)
    driver.get(weburl)
    time.sleep(1)
    dfs = pd.read_html(driver.page_sourceheader=0)[0]
    time.sleep(0.5)
    dfs.to_csv(r‘E:\\Data\\%s.csv‘% (str(city))mode=‘a+‘encoding=‘utf_8_sig‘)
driver.quit()
print (‘done‘)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2020-09-04 22:31  空气质量历史数据\
     文件          61  2020-09-04 21:36  空气质量历史数据\0万宁.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0东方.csv
     文件          61  2020-09-04 21:31  空气质量历史数据\0临高.csv
     文件          61  2020-09-04 21:31  空气质量历史数据\0乐东.csv
     文件          61  2020-09-04 21:37  空气质量历史数据\0五指山.csv
     文件          61  2020-09-04 21:26  空气质量历史数据\0保亭.csv
     文件          61  2020-09-04 21:28  空气质量历史数据\0儋州.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0定安.csv
     文件          61  2020-09-04 21:35  空气质量历史数据\0屯昌.csv
     文件          61  2020-09-04 21:36  空气质量历史数据\0文昌.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0昌江.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0澄迈.csv
     文件          61  2020-09-04 21:34  空气质量历史数据\0琼中.csv
     文件          61  2020-09-04 21:33  空气质量历史数据\0琼海.csv
     文件          70  2020-09-04 21:38  空气质量历史数据\0白沙.csv
     文件          61  2020-09-04 21:32  空气质量历史数据\0陵水.csv
     目录           0  2020-09-05 11:10  空气质量历史数据\demo\
     文件        1298  2020-09-04 21:40  空气质量历史数据\demo\demo.py
     文件        1610  2020-09-04 21:35  空气质量历史数据\demo\ghostdriver.log
     文件         126  2020-09-05 11:10  空气质量历史数据\demo\请先读读我QAQ.txt
     文件        3596  2020-09-04 21:34  空气质量历史数据\七台河.csv
     文件        3301  2020-09-04 22:07  空气质量历史数据\三亚.csv
     文件        3504  2020-09-04 21:34  空气质量历史数据\三明.csv
     文件        4061  2020-09-04 22:07  空气质量历史数据\三门峡.csv
     文件        4121  2020-09-04 21:34  空气质量历史数据\上海.csv
     文件        2974  2020-09-04 22:07  空气质量历史数据\上饶.csv
     文件        4204  2020-09-04 21:27  空气质量历史数据\东莞.csv
     文件        4641  2020-09-04 21:28  空气质量历史数据\东营.csv
     文件        3091  2020-09-04 22:13  空气质量历史数据\中卫.csv
     文件        4107  2020-09-04 21:39  空气质量历史数据\中山.csv
............此处省略358个文件信息

评论

共有 条评论