• 大小: 4.97KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-03-27
  • 语言: 其他
  • 标签: 其他  

资源简介


抓取了网易新闻里["国内","国际","航空"]和["军事","科技","体育","教育"]板块的新闻内容和评论并存到数据库中。

资源截图

代码片段和文件信息

import json
import requests
import re
from selenium import webdriver
import time
import os
from bs4 import BeautifulSoup
import pymysql

def getHTMLText(url):
    try:
        headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}
        r = requests.get(url headers=headerstimeout = 30)
        r.encoding = ‘GBK‘
        r.raise_for_status()
        return r.text
    except:
        return ““
def getContent(urlntype):
    #===============================获取新闻页面==============================
    tbnews_id = 0
    commentids=[]
    print(url)
    html = getHTMLText(url)
    soup = BeautifulSoup(html“html.parser“)
    [s.extract() for s in soup([‘script‘‘style‘])]
    title = soup.find_all(“h1“)           #爬取标题
    if title==[]:
        return 
    else:tit=title[0].get_text()
    path = soup.select(“.post_crumb“)
    time=soup.select(“.post_time_source“)             #爬取时间和来源
    if time==[]:
        tim = 

评论

共有 条评论