资源简介


资源截图

代码片段和文件信息

import requests
from lxml import etree
import re
import os
from multiprocessing.dummy import Pool as ThreadPool
 
def gethtml(urlencode): #获取网页源码
    r = requests.get(url)
    r.encoding = encode
    return r.text
 
def filterFName(FName): #文件名过滤特殊字符
    rstr = r“[\/\\\:\*\?\“\<\>\|]“
    new_name = re.sub(rstr “_“ FName)
    return new_name
 
def mkdir(path): #创建文件夹
    path = path.strip()
    isExists = os.path.exists(path)
    if not isExists:
        os.makedirs(path)
 
def geturl(url): #获取网站各个分类链接、分类名称
    html = gethtml(url‘utf-8‘)
    ehtml = etree.HTML(html)
    nurl = ehtml.xpath(‘//*[@id=“chenxing_menu“]/li/a/@href‘)
    ntitle = ehtml.xpath(‘//*[@id=“chenxing_menu“]/li/a/text()‘)
    urldata=[]
    for i in range(1len(nurl)-1):
        urldata.a

评论

共有 条评论