• 大小: 2.24KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2024-05-09
  • 语言: Python
  • 标签: 爬虫  

资源简介

实现python爬取小说

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
import re
import requests
url = “http://mianzhuan.wddsnxn.org“
headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 \
    (KABUL like Gecko) Chrome/14.0.835.163 Safari/535.1‘}
params = {‘tickers‘: ‘MST‘ ‘date‘: ‘2020-07-15‘}
response = requests.get(urlheaders=headersparams=params)

response.encoding=‘utf-8‘
html = response.text
#print(html)
#获取小说的标题

title = re.findall(r‘ (.*?) ‘html)
#print(title)

url = re.findall(r‘ .*? ‘html)
#print(url)

#新建文件
fb = open(“note.txt“‘w‘encoding=‘utf-8-sig‘)

#for循环迭代 下载每一个章节

i = 0
for info in url:
    info_response = requests.get(infoheaders=headersparams=params)
    info_response.encoding = ‘utf-8-sig‘
    info_html = info_response.text
#info_html
    #提取章节内容
    content = re.findall(r‘(.*?)ript language=“javascript“.*?>‘info_html)
    #print(content)

    #清洗数据
    content=content[0].replace(“
““\n“)
    content = content.replace(““““)
    #

评论

共有 条评论