• 大小: 1.70KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2024-05-07
  • 语言: Python
  • 标签: 爬取  搜索  百度  

资源简介


资源截图

代码片段和文件信息

import requests
from bs4 import BeautifulSoup
import re
import json
import jieba
#获取html页面信息
def getKeywordResult(keyword pagenum):
    url = ‘http://www.baidu.com/s?wd=‘ + keyword + ‘&pn=‘ + pagenum + ‘0‘
    try:
        r = requests.get(url timeout=30)
        r.raise_for_status()
        r.encoding = ‘utf-8‘
        return r.text
    except:
        return ““
#解析并抽取数据
def parserlinks(html):
    soup = BeautifulSoup(html “html.parser“)
    links = []
    for div in soup.find_all(‘div‘ {‘data-tools‘:re.compile(‘title‘)}):
        data = div.attrs[‘data-tools‘]
        d = json.loads(data)
        links.append(d[‘title‘])
        words_all.append(d[‘title‘])
    return links words_all
#词频统计
def words_ratio(words_all):
    words = []
    for i in words_all:
        tmp = jieba.lcut(i)
 

评论

共有 条评论