• 大小: 84.21MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2022-07-07
  • 语言: Python
  • 标签: spider  python  

资源简介

python自定义爬虫,爬取豆瓣网以及腾讯招聘网信息并进行数据可视化分析,可自定义爬取网站

资源截图

代码片段和文件信息

# from selenium.webdriver.remote.webelement import WebElement
from selenium import webdriver
from selenium.webdriver import ActionChains
# from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import StaleElementReferenceException
# from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
# from selenium.webdriver.common.by import By
import time
import urllib.request

# 歌曲名
mname = ‘‘


# js重定向
def wait(drive):
    elem = drive.find_element_by_tag_name(‘html‘)
    count = 0
    while True:
        count += 1
        if count > 20:
            print(‘chaoshi‘)
            return
        time.sleep(5)
        try:
            elem == drive.find_element_by_tag_name(‘html‘)
        except StaleElementReferenceException:
            return


# 获取url
def geturl():
    input_string = input(“>>>please input the song name:“)
    driver = webdriver.Chrome()
    url = ‘http://www.kugou.com/‘
    driver.get(url)
    # 输入搜索内容
    a = driver.find_element_by_xpath(‘html/body/div[1]/div[1]/div[1]/div[1]/input‘)
    a.send_keys(input_string)
    # 点击搜索
    driver.find_element_by_xpath(‘html/body/div[1]/div[1]/div[1]/div[1]/div/i‘)
    result_url = driver.current_url
    driver.quit()
    return result_url


# 显示搜索结果
def show_result(url):
    driver = webdriver.Chrome()
    driver.get(url)
    time.sleep(3)
    for i in range(1 1000):
        try:
            print(‘%d.‘ % i + driver.find_element_by_xpath(“.//*[@id=‘search_song‘]/div[2]/ul[2]/li[%d]/div[1]/a“ % i).get_attribute(‘title‘))
        except Exception as e:
            print(e)
            break
    choice = input(“>>>Which one do you want(you can input ‘quit‘ to goback(带引号)):“)
    # 从下载界面退回
    if choice == ‘quit‘:
        result = ‘quit‘
    else:
        global mname
        mname = driver.find_element_by_xpath(“.//*[@id=‘search_song‘]/div[2]/ul[2]/li[%d]/div[1]/a“ % choice).get_attribute(‘title‘)
        a = driver.find_element_by_xpath(“.//*[@id=‘search_song‘]/div[2]/ul[2]/li[%d]/div[1]/a“ % choice)
        actions = ActionChains(driver)
        actions.move_to_element(a)
        actions.click(a)
        actions.perform()
        # 跳转到新打开的页面
        driver.switch_to.window(driver.window_handles[1])
        # 获取播放元文件url
        result = driver.find_element_by_xpath(“.//*[@id=‘myAudio‘]“).get_attribute(‘src‘)
        driver.quit()
    return result


# 下载回调
def cbk(a b c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print(‘%.2f%%‘ % per)


def main():
    print(“***********************************欢迎使用免费音乐下载器************************************“)
    time.sleep(1)
    while True:
        url = geturl()
        result = show_result(url)
        if result == ‘quit‘:
            print(‘\n‘)
            continue
        else:
            local = ‘d://%s.mp3‘ % mname
            print(“download start“)
            time.sle

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-02-26 14:14  kugou_download\
     目录           0  2019-03-22 14:42  kugou_download\.idea\
     目录           0  2019-02-26 14:14  kugou_download\.idea\codestyles\
     文件         153  2018-11-06 20:53  kugou_download\.idea\codestyles\codestyleConfig.xml
     目录           0  2019-03-22 14:45  kugou_download\.idea\inspectionProfiles\
     文件         516  2018-11-20 10:09  kugou_download\.idea\kugou_download.iml
     文件         202  2018-11-20 10:09  kugou_download\.idea\misc.xml
     文件         280  2018-11-06 20:05  kugou_download\.idea\modules.xml
     文件       25042  2019-03-22 14:42  kugou_download\.idea\workspace.xml
     文件     4213246  2018-12-19 13:35  kugou_download\douban.txt
     文件        2041  2018-11-16 13:05  kugou_download\get_xici_ip.txt
     文件        3306  2018-11-06 21:14  kugou_download\kugou.py
     文件          26  2018-11-14 10:05  kugou_download\stopwords.txt
     文件       83803  2018-12-20 16:26  kugou_download\tencent.txt
     文件        9521  2018-11-13 19:32  kugou_download\timg.png
     目录           0  2019-02-26 14:14  kugou_download\venv\
     目录           0  2019-02-26 14:14  kugou_download\venv\Include\
     文件       22274  2016-09-11 22:51  kugou_download\venv\Include\Python-ast.h
     文件        2928  2016-06-14 00:47  kugou_download\venv\Include\Python.h
     文件       47239  2016-12-07 04:27  kugou_download\venv\Include\abstract.h
     文件        1016  2016-05-16 16:43  kugou_download\venv\Include\accu.h
     文件        1213  2016-06-14 00:47  kugou_download\venv\Include\asdl.h
     文件         477  2016-05-16 16:43  kugou_download\venv\Include\ast.h
     文件         792  2016-05-16 16:43  kugou_download\venv\Include\bitset.h
     文件         264  2016-05-16 16:43  kugou_download\venv\Include\bltinmodule.h
     文件         886  2016-05-16 16:43  kugou_download\venv\Include\boolobject.h
     文件        2114  2016-05-16 16:43  kugou_download\venv\Include\bytearrayobject.h
     文件        3191  2016-06-14 00:47  kugou_download\venv\Include\bytes_methods.h
     文件        8333  2016-11-01 02:21  kugou_download\venv\Include\bytesobject.h
     文件         701  2016-05-16 16:43  kugou_download\venv\Include\cellobject.h
     文件        8304  2016-09-11 22:51  kugou_download\venv\Include\ceval.h
............此处省略6684个文件信息

评论

共有 条评论