• 大小: 1KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-03
  • 语言: Python
  • 标签: Python  爬虫  

资源简介

Python3爬虫入门,爬取豆瓣电影Top250的排名、中文名称、豆瓣评分、时间、地区等内容,需要用到requests、bs4

资源截图

代码片段和文件信息

import requests
import re
import os
from bs4 import BeautifulSoup


def download(url page):
    html = requests.get(url).text   # 这里不加text返回
    soup = BeautifulSoup(html ‘lxml‘)
    lis = soup.select(“ol li“)
    for li in lis:
        index = li.select_one(“em“).text
        title = li.select_one(“.hd .title“).text
        rating = li.select_one(“.bd .star .rating_num“).text
        strInfo = re.search(“(?<=
).*?(?=<)“ str(li.select_one(“.bd p“)) re.S | re.M).group().strip()
        infos = strInfo.split(‘/‘)
        year = infos[0].strip()
        area = infos[1].strip()
        type

评论

共有 条评论