• 大小: 6KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-06-04
  • 语言: Python
  • 标签: Scrapy  

资源简介

经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo。这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。 工具和环境 语言:python 2.7 IDE: Pycharm 浏览器:Chrome 爬虫框架:Scrapy 1.2.1 https://zhuanlan.zhihu.com/p/24769534?refer=woodenrobot

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanMovieItem(scrapy.Item):
    # 排名
    ranking = scrapy.Field()
    # 电影名称
    movie_name = scrapy.Field()
    # 评分
    score = scrapy.Field()
    # 评论人数
    score_num = scrapy.Field()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-07-15 16:55  scrapy-tutorial-master\
     文件          17  2017-07-15 16:55  scrapy-tutorial-master\.gitignore
     文件         268  2017-07-15 16:55  scrapy-tutorial-master\scrapy.cfg
     目录           0  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\
     文件           0  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\__init__.py
     文件         386  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\items.py
     文件         292  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\pipelines.py
     文件         205  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\run.py
     文件        3177  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\settings.py
     目录           0  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\spiders\
     文件         161  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\spiders\__init__.py
     文件         387  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\spiders\blog_spider.py
     文件        1326  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\spiders\douban_ajax_spider.py
     文件        1446  2017-07-15 16:55  scrapy-tutorial-master\scrapyspider\spiders\douban_spider.py

评论

共有 条评论