• 大小: 0M
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-05-27
  • 语言: Python
  • 标签: 其他  

资源简介

wenku_test.py

资源截图

代码片段和文件信息

#Python3.5
#2018/2/14
#参考教程:http://blog.csdn.net/c406495762/article/details/72331737#31-selenium
#待改进:中文字体;代码的通用性;无法爬取图片
 
from selenium import webdriver  #webdriver用来打开网页
from bs4 import BeautifulSoup   #用来爬取内容
import time     #用来等待完全加载
from docx import Document       #新建文档
from docx.enum.text import WD_ALIGN_PARAGRAPH   #用来居中显示标题    
 
def find_doc(driver i):
    time.sleep(3)
    html = driver.page_source
    soup1 = BeautifulSoup(html ‘html.parser‘)
 
    result = soup1.find(‘div‘ attrs = {‘class‘:‘doc-title‘} )
    doc_title = result.get_text()   ###得到文档标题
 
    try:
        elem = driver.find_element_by_xpath(“//div[@data-flod-fun=‘continue-read‘]“)
        elem.click()
        global doc_content_list
        doc_content_list = []
    except:
        pass
 
    result2 = soup1.find_all(‘p‘ attrs = {‘class‘:‘txt‘} )
    for each in result2:
        text2 = each.get_text()
         
        if ‘            ‘ in text2:
            text3 = text2.replace( ‘            ‘ ‘‘ )
        else:
            text3 = text2
             
        doc_content_list.append(text3)  ###得到正文内容
         
    try:
        elem = driv

评论

共有 条评论