如何使用Python抓取需要先登录的网站

2024-03-17

首先，我认为值得一提的是，我知道有很多类似的问题，但没有一个对我有用......

我是 Python、html 和网络爬虫的新手。我正在尝试从需要先登录的网站中抓取用户信息。在我的测试中，我使用从 github 抓取我的电子邮件设置作为示例。主页是'https://github.com/login https://github.com/login' 目标页面是 'https://github.com/settings/emails https://github.com/settings/emails'

这是我尝试过的方法列表

##################################### Method 1
import mechanize
import cookielib
from BeautifulSoup import BeautifulSoup
import html2text

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)


br.addheaders = [('User-agent', 'Chrome')]

# The site we will navigate into, handling it's session
br.open('https://github.com/login')

for f in br.forms():
    print f

br.select_form(nr=0)

# User credentials
br.form['login'] = 'myusername'
br.form['password'] = 'mypwd'

# Login
br.submit()

br.open('github.com/settings/emails').read()


################ Method 2
import urllib, urllib2, cookielib

username = 'myusername'
password = 'mypwd'

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
login_data = urllib.urlencode({'username' : username, 'j_password' : password})
opener.open('https://github.com/login', login_data)
resp = opener.open('https://github.com/settings/emails')
print resp.read()



############# Method 3
import urllib
opener = urllib.FancyURLopener()
print opener.open('http://myusername:[email protected] /cdn-cgi/l/email-protection/settings/emails').read()




########## Method 4
import mechanize
import cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
#br.set_debug_http(True)
#br.set_debug_redirects(True)
#br.set_debug_responses(True)

br.addheaders = [('User-agent', 'Chrome')]

br.add_password('https://github.com/settings/emails', 'myusername', 'mypwd')
br.open('https://github.com/settings/emails')
print br.response().read()



############ Methods 5
from requests import session

payload = {
    'action': 'login',
    'username': 'myusername',
    'password': 'mypwd'
}

with session() as c:
    c.post('https://github.com/login', data=payload)
    request = c.get('https://github.com/settings/emails')
    print request.headers
    print request.text



########### Method 6
import requests
from requests.packages.urllib3 import add_stderr_logger
import sys
from bs4 import BeautifulSoup as bs

add_stderr_logger()
s = requests.Session()

s.headers['User-Agent'] = 'Chrome'

username = 'myusername'
password = 'mypwd'
url = 'https://github.com/login'

# after examining the HTML of the website you're trying to log into
# set name_form to the name of the form element that contains the name and
# set password_form to the name of the form element that will contain the password
login = {'login': username, 'password': password}
login_response = s.post(url, data=login)
for r in login_response.history:
    if r.status_code == 401:  # 401 means authentication failed
        print 'error!'
        sys.exit(1)  # abort


pdf_response = s.get('https://github.com/settings/emails')  # Your cookies and headers are automatically included
soup = bs(pdf_response.content)

我还阅读了一些关于 HTTP 身份验证和 cookie 之间差异的讨论。但他们仍然没有工作。

请帮助，任何帮助将不胜感激。非常感谢。

这对我有用：

##################################### Method 1
import mechanize
import cookielib
from BeautifulSoup import BeautifulSoup
import html2text

# Browser
br = mechanize.Browser()

# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

br.addheaders = [('User-agent', 'Chrome')]

# The site we will navigate into, handling it's session
br.open('https://github.com/login')

# View available forms
for f in br.forms():
    print f

# Select the second (index one) form (the first form is a search query box)
br.select_form(nr=1)

# User credentials
br.form['login'] = 'mylogin'
br.form['password'] = 'mypass'

# Login
br.submit()

print(br.open('https://github.com/settings/emails').read())

你根本就离我们不远了！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

http

cookies

Authorization

scraper

如何使用Python抓取需要先登录的网站的相关文章

Django 是否使用一个线程来处理 WSGI 或 Gunicorn 中的多个请求？

根据标题我想知道 Django 在通过 WSGI 或 Gunicorn 运行时是否使用一个线程来处理多个请求我知道从不应该访问的地方访问请求是一种不好的做法但我仍然想这样做我认为有充分的理由例如在我的自定义模板加载器中访问当前用户
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
Tornado：DummyFuture 不支持结果阻塞

我试图获得一个非常简单的初始服务器它可以异步获取 url 来工作但它会抛出 Exception DummyFuture does not support blocking for results 有这个SO https stacko
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
Python中矩阵元素的双重求和

基于下面的简化示例我想在我的代码中 from sympy import import numpy as np init printing x y symbols x y mat Matrix x 1 1 y X 1 2 3 Y 10 20
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

如何在 Visual Studio 中传递多个命令参数？

我正在使用 LZMA SDK 开发一个压缩解压缩项目主程序包含一些我必须用来运行应用程序的参数要从命令行运行它我使用 LzmaUtil exe e input elf output elf 我正在使用 VS 2013 所以我添加了e
org.xml.sax.SAXParseException：src-resolve：无法将名称“repository：auditing-attributes”解析为（n）“属性组”组件

在项目上运行 Maven 测试时出现以下错误我正在使用 Spring Data Neo4j 构建一个测试应用程序 java lang IllegalStateException Failed to load ApplicationCont
将双精度数转换为没有小数位的字符串的最佳方法

将双精度数转换为没有小数位的字符串的最佳方法是什么关于什么String valueOf int documentNumber 双精度数小数点后始终为 0 我不需要舍入或截断如果您确定 double 确实是一个整数请使用这个 Numbe
Delphi - 反向查找“谁包括这个单元”

我正在调试分布在许多单元上的大型应用程序我在低级单元中遇到了编译错误并且完全不知道该单元在应用程序的哪个部分被引用有没有办法使用 RAD studio 2010 的 IDE 创建某种包含图由于大多数使用的单元不是项目的一部分并且分
React 表单，提交对象，然后将其推送到数组

我是 React 新手不确定如何执行此操作我有一组已映射并在视图中渲染的对象我想要做的是设置一个表单将每个字段的值提交到新对象的相应属性但我不确定如何执行此操作这是我的初始数据它在视图中呈现 contactArray name
C# Outlook 2007 COM 互操作应用程序不退出！

知道为什么以下代码不退出通过 COM 互操作创建的 Outlook 2007 进程吗 Microsoft Office Interop Outlook Application app new Microsoft Office Interop
为什么这个 readline 异步迭代器无法正常工作？

这是一个更大流程的一部分我在节点 v14 4 0 中将其提炼为最小的可重现的示例在此代码中它从内部不输出任何内容for loop 我在控制台中只看到这个输出 before for loop finished finally done
如何使用 pgx 记录查询？

如果我使用 pgx 池我找不到如何记录 sql 查询的文档例如我创建了这样的池 func DB pgxpool Pool connStr os Getenv DATABASE URL conn err pgxpool Connect c
迁移到Git时如何处理部分svn:externals？

我想将 SVN 存储库导入 GitHub Enterprise 存储库与此相关的问题有很多其中大多数都可以通过 Git 子模块或 Git 子树来解决就我而言我有两个存储库主项目存储库模块存储库超过 2 GB 的大型 SVN 存
如果找不到 emacs 初始化文件怎么办？

我正在尝试按照以下说明将 haskell 模式添加到 emacs http doc gnu darwin org haskell mode installation guide html http doc gnu darwin org ha
ASP.NET Core 2，jQuery POST 数据为空

I use jQuery并发送数据POST方法但在服务器方法中值没有出现可能是什么错误 client ajax type POST contentType application json charset utf 8 url AddT
接受套接字函数超时

我试图在接受套接字函数上设置超时但没有成功我希望接受功能块直到超时延迟结束是否可以不将接受函数设置为非阻塞我尝试了很多可能性都没有成功感谢您的回答下面是我的代码 struct timeval tv fd set readfds
从 SwiftUI 中的切换列表中读取值

我希望这个问题不要太愚蠢我被这个问题困扰了很长时间尝试了不同的方法但仍然失败我对 Swift 和 SwiftUI 还很陌生这就是为什么我可能看不到明显的东西我有一个包含切换列表的视图切换列表依赖于setData它是由包含 id
如何将 Express.js 变量传递给 MongoDB 函数？

我正在研究一个博客应用程序 https github com Ajax30 XPressBlog 点击链接即可查看GitHub回购与Express https expressjs com EJS https ejs co 和 MongoD
为什么使用不匹配的参数调用重载函数仍然有效

我无法解释为什么第二个电话 B 不会给出任何错误因为有两个char元素并且此调用没有确定的匹配为什么叫第二个 2 但不是第一个 1 版本我注意到有一些自动转换我不明白的是为什么 a 被提升为 int 并且 c isn t 1 in
如果使用了 waitFor，为什么杀死 JVM 也会终止其子进程？

If waitFor不使用时杀死JVM对其子进程没有影响这是一个例子重击脚本 usr bin env bash echo Sleeping gt log sleep 30 echo Wake up gt gt log Java代码 p
Java Applet 在 Safari 中沙箱化？

自从升级到 Mavericks 后如果从 Safari 使用我们工作中的 Applet 就不再能够浏览文件但在 Firefox 上仍然可以使用 Applet 处理文件上传因此您可以想象这可能是一个问题从 Safari 使用它时我
链接 ipython 小部件按钮和滑块值

我试图弄清楚如何将按钮小部件控制的计数器的值链接到滑块小部件的值这里的目标是使用 ipython 小部件创建一个简单的类似 vcr 的界面其中包含三个小部件 IntSlider和两个Button递增计数器和递减计数器这就是我所拥有的
如何将标题图像居中

我有个问题其他人问题的答案并没有解决我的问题这是关于我的标题中的图像代码如下 HTML div div img class center src http i imgur com jfDhpP5 png div div li a hr
如何使用Python抓取需要先登录的网站

首先我认为值得一提的是我知道有很多类似的问题但没有一个对我有用我是 Python html 和网络爬虫的新手我正在尝试从需要先登录的网站中抓取用户信息在我的测试中我使用从 github 抓取我的电子邮件设置作为示例主页是 h

如何使用Python抓取需要先登录的网站

如何使用Python抓取需要先登录的网站 的相关文章

随机推荐

热门标签

如何使用Python抓取需要先登录的网站的相关文章