爬取百度关键词搜索频率

大小: 1.70KB

文件类型: .rar

金币: 1

下载: 0 次

发布日期: 2024-05-07
语言: Python
标签: 爬取搜索百度

高速下载

资源简介

资源截图

小图大图

代码片段和文件信息

import requests
from bs4 import BeautifulSoup
import re
import json
import jieba
#获取html页面信息
def getKeywordResult（keyword pagenum）:
    url = ‘http://www.baidu.com/s?wd=‘ + keyword + ‘&pn=‘ + pagenum + ‘0‘
    try:
        r = requests.get（url timeout=30）
        r.raise_for_status（）
        r.encoding = ‘utf-8‘
        return r.text
    except:
        return ““
#解析并抽取数据
def parserlinks（html）:
    soup = BeautifulSoup（html “html.parser“）
    links = []
    for div in soup.find_all（‘div‘ {‘data-tools‘:re.compile（‘title‘）}）:
        data = div.attrs[‘data-tools‘]
        d = json.loads（data）
        links.append（d[‘title‘]）
        words_all.append（d[‘title‘]）
    return links words_all
#词频统计
def words_ratio（words_all）:
    words = []
    for i in words_all:
        tmp = jieba.lcut（i）

共有条评论

爬取百度关键词搜索频率

资源简介

资源截图

代码片段和文件信息

评论

相关资源