• 大小: 6KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: Python
  • 标签:

资源简介

利用python3以及scrapy爬虫框架编写的淘宝模拟登陆抓取店铺后台数据的一个项目。其中最主要的就是解决了淘宝的模拟登陆问题,为后面数据的抓取提供了很大的方便。

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
import time
import scrapy
import json
from Tesoridoriente.items import TesoridorienteItem


class TesoridorienteSpider(scrapy.Spider):
    # 爬虫名
    name = ‘tesoridoriente‘
    # 爬虫允许的域
    allowed_domains = [“taobao.com“ “passport.alibaba.com“]
    # 爬虫进行模拟登录的url
    login_url = ‘https://login.taobao.com/member/login.jhtml‘
    # 爬虫要抓取数据的url
    crawl_url = ‘https://sycm.taobao.com/portal/live/overview.json‘
    # 构建请求头
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/62.0.3202.89 Safari/537.36‘
        ‘Content-Type‘: ‘application/x-www-form-urlencoded‘
        ‘Connection‘: ‘Keep-Alive‘
    }
    # 模拟登录需要提交的用户名
    username = ‘tesoridoriente海外旗舰店:技术‘
    # 构建模拟登录需要提

评论

共有 条评论