• 大小: 8KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-06-15
  • 语言: 其他
  • 标签: 爬虫  ajax  分页  

资源简介

爬取东方财富网公司公告,包括爬取利用ajax加载的网页,以及如何模拟翻页。与上一版增加了对各种错误机制的处理。

资源截图

代码片段和文件信息

# coding:utf8

import urllib2
import socket
import sys

reload(sys)
sys.setdefaultencoding(‘utf-8‘)

class HtmlDownloader(object):
      
    def download(selfurl):
        socket.setdefaulttimeout(200)
        if url is None:
            return None
        
        response = urllib2.urlopen(url)
        
        if response.getcode() != 200:
            return None
        return unicode(response.read() ‘GB18030‘ ‘ignore‘).encode(‘UTF-8‘)
        #return response.read()
    




 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        391  2017-03-23 10:50  EastFortuneByStockIdx\.project

     文件        431  2016-10-30 13:20  EastFortuneByStockIdx\.pydevproject

     文件        257  2016-11-12 11:07  EastFortuneByStockIdx\.settings\org.eclipse.core.resources.prefs

     文件        515  2016-11-15 00:02  EastFortuneByStockIdx\baike_spider\html_downloader.py

     文件        996  2016-11-15 00:03  EastFortuneByStockIdx\baike_spider\html_downloader.pyc

     文件        769  2016-11-11 00:03  EastFortuneByStockIdx\baike_spider\html_outputer.py

     文件       1561  2016-11-11 00:03  EastFortuneByStockIdx\baike_spider\html_outputer.pyc

     文件       1099  2017-03-11 18:47  EastFortuneByStockIdx\baike_spider\html_parser.py

     文件       1886  2017-03-11 18:48  EastFortuneByStockIdx\baike_spider\html_parser.pyc

     文件       4527  2017-04-23 22:36  EastFortuneByStockIdx\baike_spider\spider_main.py

     文件       1199  2016-11-14 20:50  EastFortuneByStockIdx\baike_spider\url_manager.py

     文件       2222  2016-11-14 20:50  EastFortuneByStockIdx\baike_spider\url_manager.pyc

     文件          0  2016-10-30 14:07  EastFortuneByStockIdx\baike_spider\__init__.py

     文件        158  2016-11-11 00:03  EastFortuneByStockIdx\baike_spider\__init__.pyc

     文件         47  2017-03-23 19:29  EastFortuneByStockIdx\test\__init__.py

     目录          0  2017-03-23 19:47  EastFortuneByStockIdx\baike_spider\ann

     目录          0  2017-03-23 19:47  EastFortuneByStockIdx\.settings

     目录          0  2017-04-15 10:47  EastFortuneByStockIdx\baike_spider

     目录          0  2017-03-23 19:47  EastFortuneByStockIdx\test

     目录          0  2017-03-23 19:47  EastFortuneByStockIdx

----------- ---------  ---------- -----  ----

                16058                    20


评论

共有 条评论