• 大小: 1KB
    文件类型: .py
    金币: 2
    下载: 1 次
    发布日期: 2021-06-13
  • 语言: Python
  • 标签: python  baidu  title  url  

资源简介

Python脚本用于获取百度搜索结果中的标题和URL。 输入:百度关键词及搜索页面数 输出:标题和URL

资源截图

代码片段和文件信息

#encoding: utf-8
#采集SERP搜索结果标题
import urllib2
from bs4 import BeautifulSoup

#获取title和url
def GettitleUrl(urlres_titleres_urlbShowRes):
  try:
    ##获取Html源码
    req = urllib2.Request(url)
    response= urllib2.urlopen(reqNone3)#设置超时时间
    data = response.read()#.decode(‘utf-8‘‘ignore‘)
    ##提取搜索结果SERP的标题和链接
    soup = BeautifulSoup(‘‘.join(data)‘lxml‘)
    for i in soup.findAll(“h3“):
      temp_title = i.a.text.encode(“utf-8“)
      temp_url = i.a.get(‘href‘)
      if bShowRes==1:
        print temp_title
        print temp_url
      res_title.append(temp_title)
      res_url.append(temp_url)
  except:
      pass

评论

共有 条评论