资源简介

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。 项目内容: 用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 http://blog.csdn.net/wxg694175346/article/details/8934726

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:百度贴吧爬虫
#   版本:0.4
#   作者:why
#   日期:2013-05-16
#   语言:Python 2.7
#   操作:输入网址后自动只看楼主并保存到本地文件
#   功能:将楼主发布的内容打包txt存储到本地。
#---------------------------------------
 
import string
import urllib2
import re

#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
    # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
    BgnCharToNoneRex = re.compile(“(\t|\n| ||)“)
    
    # 用非 贪婪模式 匹配 任意<>标签
    EndCharToNoneRex = re.compile(“<.*?>“)

    # 用非 贪婪模式 匹配 任意

标签
    BgnPartRex = re.compile(““)
    CharToNewLineRex = re.compile(“(
|

||
|
)“)
    CharToNextTabRex = re.compile(““)

    # 将一些html的符号实体转变为原始符号
    replaceTab = [(“<““<“)(“>““>“)(“&““&“)(“&am

评论

共有 条评论