资源简介

xpath爬取豆瓣电影top250

资源截图

代码片段和文件信息

import requests
from lxml import etree

headers = {
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/73.0.3683.103 Safari/537.36‘
    ‘Host‘: ‘movie.douban.com‘
}

def get_one_page(base_url):
    for i in range(10):
        url=base_url+str(i*25)#
        response=requests.get(url headers=headers)
        html=etree.HTML(response.content)
        items = html.xpath(‘//ol/li/div[@class=“item“]‘)
        for item in items:
            try:
                rank=item.xpath(‘./div[@class=“pic“]/em/text()‘)#提取电影的排名
                title=item.

评论

共有 条评论