资源简介

python爬虫爬取微博热搜

资源截图

代码片段和文件信息

#-*- coding = utf-8 -*-
#@Time : 2020/12/16 14:37
#@Author : wy
#@File : spider.py
#@Software : PyCharm

‘‘‘
实现思路
1.页面分析,找到页面的url,找到数据的位置
2.数据抓取,通过request库的get请求拿到html源码
3.数据解析,通过lxml库的xpath语法提取所需要的数据
4.数据存储,使用with open将数据进行写入
‘‘‘

#引入第三方库,需要安装

import requests                #数据抓取库
from lxml import etree         #数据解析库
import time                    #内置函数,时间库

#时间格式化
today = time.strftime(
    ‘%Y{y}%m{m}%d{d}‘time.localtime()).format(y=‘年‘m=‘月‘d=‘日‘)
print(today)

#数据抓取
url = “https://s.weibo.com/top/summary?cate=realtimehot“     #热搜地址
headers ={
“User-Agent“: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.60“

}        #headers伪装头
response = requests.get(urlheaders=headers)        #发送请求
#print(response.text)    #获取html源码

#数据解析
html = etree.HTML(response.text)      #类型转换

#先找到上一级标签,然后在下面进行多次提取,使用for循环
datas = html.xpath(‘//*[@id=“pl_top_realtimehot“]/table/tbody/tr‘)       #由一定的路径
for data in datas:    #循环多次提取
    data_title = ‘‘.join(data.xpath(‘td[2]/a/text()‘))     #热搜标题
    data_rank = ‘‘.join(data.xpath(‘td[1]/text()‘))        #热搜排名
    data_num = ‘‘.join(data.xpath(‘td[2]/span/text()‘))
    print(data_rankdata_titledata_num)

    #数据存储,文件名是当天的日期
    with open(“./20201228‘.txt‘“‘a‘encoding=‘utf-8‘)as f:
        f.write(“%s\t%s%s\n“%(data_rankdata_titledata_num))


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        184  2020-12-16 14:39  weibo\.idea\.gitignore

     文件        174  2020-12-16 14:39  weibo\.idea\inspectionProfiles\profiles_settings.xml

     文件        410  2020-12-16 14:39  weibo\.idea\inspectionProfiles\Project_Default.xml

     文件        302  2020-12-16 14:39  weibo\.idea\misc.xml

     文件        269  2020-12-16 14:39  weibo\.idea\modules.xml

     文件        361  2020-12-16 14:39  weibo\.idea\weibo.iml

     文件       6060  2020-12-28 23:33  weibo\.idea\workspace.xml

     文件       1870  2020-12-28 23:33  weibo\20201228‘.txt‘

     文件       1819  2020-12-28 23:33  weibo\spider.py

     文件       2176  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\AUTHORS

     文件       1315  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\COPYING.txt

     文件          4  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\INSTALLER

     文件       1447  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\LICENSE

     文件       4190  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\metaDATA

     文件       3121  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\RECORD

     文件          0  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\REQUESTED

     文件          4  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\top_level.txt

     文件         92  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\WHEEL

     文件      18748  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_html5lib.py

     文件      18405  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_htmlparser.py

     文件      12234  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_lxml.py

     文件      19777  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__init__.py

     文件      12476  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_html5lib.cpython-39.pyc

     文件      12968  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_htmlparser.cpython-39.pyc

     文件       9418  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_lxml.cpython-39.pyc

     文件      15293  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\__init__.cpython-39.pyc

     文件      34130  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\dammit.py

     文件       7755  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\diagnose.py

     文件      81650  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\element.py

     文件       5654  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\formatter.py

............此处省略1722个文件信息

评论

共有 条评论