• 大小: 258KB
    文件类型: .zip
    金币: 2
    下载: 0 次
    发布日期: 2024-01-04
  • 语言: 其他
  • 标签: 爬虫  

资源简介

模拟登录一些常见的网站 知乎 126邮箱 weibo.cn (验证码识别困难,建议不要用这种方式) 和 mweibo.cn (推荐使用) 百度 WebQQ by opdss 还有点问题 Webweixin by opdss 微博网页版 lantouzi by opdss jd.com by henry51 liepin.com by henry51 拉勾网 by opdss xueqiu.com by xchaoinfo v2ex.com by zeekvfu guokr.com by Zhao Min blog.CSDN.net by guoruibiao 博客 dlut 大连理工大学校园网相关 by guoruibiao 博客 attop.com by justZERO github.com by wuxiaoxiaoshen B站 豆瓣

资源截图

代码片段和文件信息

# coding: utf8

# @Author: 郭 璞
# @File: MyZhiHuLogin.py                                                                 
# @Time: 2017/4/8                                   
# @Contact: 1064319632@qq.com
# @blog: http://blog.csdn.net/marksinoberg
# @Description: 我的模拟登录知乎

import requests
from bs4 import BeautifulSoup
import os time
import re
# import http.cookiejar as cookielib

# 构造 Request headers
agent = ‘Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36‘
headers = {
    “Host“: “www.zhihu.com“
    “Referer“: “https://www.zhihu.com/“
    ‘User-Agent‘: agent
}

######### 构造用于网络请求的session
session = requests.Session()
# session.cookies = cookielib.LWPCookieJar(filename=‘zhihucookie‘)
# try:
#     session.cookies.load(ignore_discard=True)
# except:
#     print(‘cookie 文件未能加载‘)

############ 获取xsrf_token
homeurl = ‘https://www.zhihu.com‘
homeresponse = session.get(url=homeurl headers=headers)
homesoup = BeautifulSoup(homeresponse.text ‘html.parser‘)
xsrfinput = homesoup.find(‘input‘ {‘name‘: ‘_xsrf‘})
xsrf_token = xsrfinput[‘value‘]
print(“获取到的xsrf_token为: “ xsrf_token)

########## 获取验证码文件
randomtime = str(int(time.time() * 1000))
captchaurl = ‘https://www.zhihu.com/captcha.gif?r=‘+\
             randomtime+“&type=login“
captcharesponse = session.get(url=captchaurl headers=headers)
with open(‘checkcode.gif‘ ‘wb‘) as f:
    f.write(captcharesponse.content)
    f.close()
# os.startfile(‘checkcode.gif‘)
captcha = input(‘请输入验证码:‘)
print(captcha)

########### 开始登陆
headers[‘X-Xsrftoken‘] = xsrf_token
headers[‘X-Requested-With‘] = ‘xmlHttpRequest‘
loginurl = ‘https://www.zhihu.com/login/email‘
postdata = {
    ‘_xsrf‘: xsrf_token
    ‘email‘: ‘邮箱@qq.com‘
    ‘password‘: ‘密码‘
}
loginresponse = session.post(url=loginurl headers=headers data=postdata)
print(‘服务器端返回响应码:‘ loginresponse.status_code)
print(loginresponse.json())
# 验证码问题输入导致失败: 猜测这个问题是由于session中对于验证码的请求过期导致
if loginresponse.json()[‘r‘]==1:
    # 重新输入验证码,再次运行代码则正常。也就是说可以再第一次不输入验证码,或者输入一个错误的验证码,只有第二次才是有效的
    randomtime = str(int(time.time() * 1000))
    captchaurl = ‘https://www.zhihu.com/captcha.gif?r=‘ + \
                 randomtime + “&type=login“
    captcharesponse = session.get(url=captchaurl headers=headers)
    with open(‘checkcode.gif‘ ‘wb‘) as f:
        f.write(captcharesponse.content)
        f.close()
    os.startfile(‘checkcode.gif‘)
    captcha = input(‘请输入验证码:‘)
    print(captcha)

    postdata[‘captcha‘] = captcha
    loginresponse = session.post(url=loginurl headers=headers data=postdata)
    print(‘服务器端返回响应码:‘ loginresponse.status_code)
    print(loginresponse.json())




##########################保存登陆后的cookie信息
# session.cookies.save()
############################判断是否登录成功
profileurl = ‘https://www.zhihu.com/settings/profile‘
profileresponse = session.get(url=profileurl headers=headers)
print(‘profile页面响应码:‘ profileresponse.status_code)
profilesoup = BeautifulSoup(profileres

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-09-30 13:17  fuck-login-master\
     文件          31  2017-09-30 13:17  fuck-login-master\.gitignore
     目录           0  2017-09-30 13:17  fuck-login-master\001 zhihu\
     文件        3488  2017-09-30 13:17  fuck-login-master\001 zhihu\myzhihu.py
     文件      227902  2017-09-30 13:17  fuck-login-master\001 zhihu\zhihu.gif
     文件        3980  2017-09-30 13:17  fuck-login-master\001 zhihu\zhihu.py
     目录           0  2017-09-30 13:17  fuck-login-master\002 126\
     文件        1569  2017-09-30 13:17  fuck-login-master\002 126\126.py
     目录           0  2017-09-30 13:17  fuck-login-master\003 weibo.cn\
     文件        4914  2017-09-30 13:17  fuck-login-master\003 weibo.cn\m.weibo.cn.py
     文件        2373  2017-09-30 13:17  fuck-login-master\003 weibo.cn\weibo.cn.py
     目录           0  2017-09-30 13:17  fuck-login-master\004 baidu\
     文件        6231  2017-09-30 13:17  fuck-login-master\004 baidu\baidu.py
     目录           0  2017-09-30 13:17  fuck-login-master\005 webQQ\
     文件        4178  2017-09-30 13:17  fuck-login-master\005 webQQ\webQQ.py
     目录           0  2017-09-30 13:17  fuck-login-master\006 webWeixin\
     文件        7167  2017-09-30 13:17  fuck-login-master\006 webWeixin\webWeixin.py
     目录           0  2017-09-30 13:17  fuck-login-master\007 weibo.com\
     文件         263  2017-09-30 13:17  fuck-login-master\007 weibo.com\README.md
     文件        5273  2017-09-30 13:17  fuck-login-master\007 weibo.com\weibo.com.py
     文件        5325  2017-09-30 13:17  fuck-login-master\007 weibo.com\weibo.qrcode.py
     目录           0  2017-09-30 13:17  fuck-login-master\008 lantouzi.com\
     文件        5555  2017-09-30 13:17  fuck-login-master\008 lantouzi.com\lantouzi.py
     目录           0  2017-09-30 13:17  fuck-login-master\009 jd.com\
     文件        3395  2017-09-30 13:17  fuck-login-master\009 jd.com\JD_login.py
     目录           0  2017-09-30 13:17  fuck-login-master\010 liepin.com\
     文件        3339  2017-09-30 13:17  fuck-login-master\010 liepin.com\liepin_login.py
     目录           0  2017-09-30 13:17  fuck-login-master\011 lagou.com\
     文件        4961  2017-09-30 13:17  fuck-login-master\011 lagou.com\lagou_login.py
     目录           0  2017-09-30 13:17  fuck-login-master\012 xueqiu.com\
     目录           0  2017-09-30 13:17  fuck-login-master\012 xueqiu.com\xueqiu-scrapy\
............此处省略36个文件信息

评论

共有 条评论