• 大小: 0.02M
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-03-27
  • 语言: 其他
  • 标签: 其他  

资源简介


scrapy爬虫爬取csdn博客新闻列表保存到本地数据库。这个是本人最近学习爬虫的一个实践案例,源码解析详情请移步博文:https://blog.csdn.net/xiaocy66/article/details/83834261

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class CsdnnewsItem(scrapy.Item):
    # define the fields for your item here like:
    
    # 头像
    avatar = scrapy.Field()

    # 标题
    title = scrapy.Field()

    # 分类文本
    category = scrapy.Field()

    # 分类id
    category_id = scrapy.Field()

    # 渠道
    channel = scrapy.Field()

    # 创建时间
    created_time = scrapy.Field()

    # 当前id
    cur_id = scrapy.Field()

    # 用户名
    user_name = scrapy.Field()

    # 作者昵称
    nickname = scrapy.Field()

    # 用户详情url
    user_url = scrapy.Field()

    # 展示时间
    showtime = scrapy.Field()

    # 展示时间,比如2018年8月、19小时前、2天前
    show_datetime = scrapy.Field()
    
    # 来源
    source_from = scrapy.Field()
    
    # 摘要
    summary = scrapy.Field()

    # 标签(多个标签以|分割)
    tag = scrapy.Field()

    # 类型(blog、news、article

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-11-08 17:40  csdnnews\
     目录           0  2018-11-08 17:40  csdnnews\csdnnews\
     目录           0  2018-11-08 17:37  csdnnews\csdnnews\db\
     文件        2482  2018-11-08 17:37  csdnnews\csdnnews\db\dbhelper.py
     文件        1686  2018-11-08 17:35  csdnnews\csdnnews\db\init.sql
     文件         165  2018-11-08 17:35  csdnnews\csdnnews\db\__init__.py
     目录           0  2018-11-08 17:35  csdnnews\csdnnews\db\__pycache__\
     文件        2401  2018-11-08 17:35  csdnnews\csdnnews\db\__pycache__\dbhelper.cpython-36.pyc
     文件         148  2018-11-08 17:35  csdnnews\csdnnews\db\__pycache__\__init__.cpython-36.pyc
     文件        1341  2018-11-08 17:40  csdnnews\csdnnews\items.py
     文件        3704  2018-11-08 17:40  csdnnews\csdnnews\middlewares.py
     文件         711  2018-11-08 17:40  csdnnews\csdnnews\pipelines.py
     文件        3393  2018-11-08 17:40  csdnnews\csdnnews\settings.py
     目录           0  2018-11-08 17:41  csdnnews\csdnnews\spiders\
     文件        5092  2018-11-08 17:35  csdnnews\csdnnews\spiders\csdnspider.py
     文件         165  2018-11-08 17:40  csdnnews\csdnnews\spiders\__init__.py
     目录           0  2018-11-08 17:35  csdnnews\csdnnews\spiders\__pycache__\
     文件        3788  2018-11-08 17:35  csdnnews\csdnnews\spiders\__pycache__\csdnspider.cpython-36.pyc
     文件        1287  2018-11-08 17:35  csdnnews\csdnnews\spiders\__pycache__\tt.cpython-36.pyc
     文件         153  2018-11-08 17:35  csdnnews\csdnnews\spiders\__pycache__\__init__.cpython-36.pyc
     文件           0  2018-11-08 17:40  csdnnews\csdnnews\__init__.py
     目录           0  2018-11-08 17:35  csdnnews\csdnnews\__pycache__\
     文件         724  2018-11-08 17:35  csdnnews\csdnnews\__pycache__\items.cpython-36.pyc
     文件        1043  2018-11-08 17:35  csdnnews\csdnnews\__pycache__\pipelines.cpython-36.pyc
     文件         456  2018-11-08 17:35  csdnnews\csdnnews\__pycache__\settings.cpython-36.pyc
     文件         145  2018-11-08 17:35  csdnnews\csdnnews\__pycache__\__init__.cpython-36.pyc
     文件         270  2018-11-08 17:40  csdnnews\scrapy.cfg

评论

共有 条评论