• 大小: 2KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-02
  • 语言: Python
  • 标签: Pytho  爬取51job  

资源简介

此资源用xpath的方法来解析网页的内容,详细的介绍了下载网页、解析数据、将数据存入表格的过程。希望能给到你借鉴。

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-

import requests
from fake_useragent import UserAgent
agent=UserAgent()
#当用到xpath时需要引入此包
from lxml import etree

#下载
url=“http://search.51job.com/list/010000%252C020000%252C180200%252C200200000000000000999python21.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=“

response = requests.get(url
                                          headers = {“User-Agent“:agent.random}
                      )
#设置编码格式
response.encoding=response.apparent_encoding

# 解析
# root可理解为网页本身
root = etree.HTML(response.text)
#用xpath返回的是一个列表
div_list = root.xpath(‘//div[@class=“dw_table

评论

共有 条评论