在使用 Scrapy 进行身份验证时抓取 LinkedIn

2023-11-24

所以我读过在 Scrapy 中使用经过身份验证的会话进行爬网我挂断了，我 99% 确信我的解析代码是正确的，我只是不相信登录正在重定向并且成功。

我也遇到了 check_login_response() 的问题，不确定它正在检查哪个页面。尽管“退出”是有意义的。

======更新======

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

from linkedpy.items import LinkedPyItem

class LinkedPySpider(InitSpider):
    name = 'LinkedPy'
    allowed_domains = ['linkedin.com']
    login_page = 'https://www.linkedin.com/uas/login'
    start_urls = ["http://www.linkedin.com/csearch/results?type=companies&keywords=&pplSearchOrigin=GLHD&pageKey=member-home&search=Search#facets=pplSearchOrigin%3DFCTD%26keywords%3D%26search%3DSubmit%26facet_CS%3DC%26facet_I%3D80%26openFacets%3DJO%252CN%252CCS%252CNFR%252CF%252CCCR%252CI"]

    def init_request(self):
        #"""This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        #"""Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'session_key': '[email protected]', 'session_password': 'somepassword'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        #"""Check the response returned by a login request to see if we aresuccessfully logged in."""
        if "Sign Out" in response.body:
            self.log("\n\n\nSuccessfully logged in. Let's start crawling!\n\n\n")
            # Now the crawling can begin..

            return self.initialized() # ****THIS LINE FIXED THE LAST PROBLEM*****

        else:
            self.log("\n\n\nFailed, Bad times :(\n\n\n")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse(self, response):
        self.log("\n\n\n We got data! \n\n\n")
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//ol[@id=\'result-set\']/li')
        items = []
        for site in sites:
            item = LinkedPyItem()
            item['title'] = site.select('h2/a/text()').extract()
            item['link'] = site.select('h2/a/@href').extract()
            items.append(item)
        return items

通过在 self.initialized() 前面添加“Return”解决了该问题

再次感谢！ -标记

class LinkedPySpider(BaseSpider):

应该：

class LinkedPySpider(InitSpider):

另外你不应该覆盖parse正如我在此处的回答中提到的功能：https://stackoverflow.com/a/5857202/crawling-with-an-authenticated-session-in-scrapy

如果您不明白如何定义提取链接的规则，只需正确阅读文档即可：
http://readthedocs.org/docs/scrapy/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule
http://readthedocs.org/docs/scrapy/en/latest/topics/link-extractors.html#topics-link-extractors

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

linkedinapi

Scrapy

scraper

在使用 Scrapy 进行身份验证时抓取 LinkedIn 的相关文章

python：查找围绕某个 GPS 位置的圆的 GPS 坐标的优雅方法

我有一组以十进制表示的 GPS 坐标并且我正在寻找一种方法来查找每个位置周围半径可变的圆中的坐标这是一个例子 http green and energy com downloads test circle html我需要什么这是一个圆
如何手动计算分类交叉熵？

当我手动计算二元交叉熵时我应用 sigmoid 来获取概率然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

如何使用webview下载文件？（这个案例很奇怪）

我想使用webview从网站下载文件例如 mp3 但问题是每当我点击链接时它都会打开浏览器默认浏览器在关闭之前会出现一秒钟并且没有下载任何文件这是我的代码 import android app Activity import a
后续：从python执行.sql文件

一年多前有人问过这样的问题在Python中执行用于在SQL Management Studio中运行的 sql文件我正在用 python 编写一个脚本该脚本连接到 SQL 服务器并根据大型几 GB sql 文件中的 SQL 命令
Pandas：将 TimeGrouper 与另一个 Groupby 参数结合起来

我有以下数据框 df pd DataFrame Branch A A A A A B split Buyer Carl Mark Carl Joe Joe Carl split Quantity 1 3 5 8 9 3 Date DT da
使用 Retrofit 2 进行日志记录

我正在尝试获取请求中发送的确切 JSON 这是我的代码 OkHttpClient client new OkHttpClient client interceptors add new Interceptor Override public
在 C# 中以编程方式将 .crt + .key 文件转换为 X509Certificate2

我在 Linux 计算机上有一个 crt 证书和一个 key 私钥文件私钥采用加密的 PKCS 8 格式 BEGIN ENCRYPTED PRIVATE KEY 我想将它们导入 X509Certificate2 对象以供进一步使用由于我
使用 pytables 构建一个巨大的 numpy 数组

如何使用 pytables 创建一个巨大的 numpy 数组我尝试了这个但给了我 ValueError 数组太大错误 import numpy as np import tables as tb ndim 60000 h5file t
(Excel VBA) 如果单元格值等于“”则显示/隐藏图像

我正在开发一个 Excel 电子表格当选择下拉框值时将弹出一个图像如果选择另一个值它将隐藏当前图像并弹出与所选内容相关的图像我发现一些仅使用纸张并使用坐标定位图像的方法太耗时这并不完全是我想要走的路线在使用 StackOver
如何使用 Play 框架中的演化在 PostgreSQL 中创建函数？

使用 Play 框架 2 1 我在演化过程中定义了以下 SQL CREATE OR REPLACE FUNCTION idx myArray anyarray myElement anyelement RETURNS int AS SELE
Newtonsoft.Json - 从 JSON 获取反序列化对象的相应行号，以更好地处理错误

我的应用程序接受来自客户端的长 JSON 模板并对其进行反序列化和处理我想向客户提供更好的错误处理信息其中包含 JSON 文本中无效对象的行号请注意这是针对后处理中发生的错误NOT用于反序列化期间发生的错误因为这已由 Newto
SimpleDateFormat 始终返回 1970.01.17 且时区错误

我一直在使用Processing 3 0 当我的Arduino输出某些值时我试图打印一个简单的时间戳但它不起作用我尝试使用 SimpleDateFormat 但它总是返回1970 01 17 17 48 35 GMT 而不是实际时间
Swift：闭包是否引用常量或变量？

我知道有几个相关的问题而且我可以在互联网上找到很多帖子但是我无法理解闭包可以保存引用的事实对于引用类型这是完全常见且非常合理的但是对于值类型包括struct and enum 请参阅此代码 let counter gt Int
Android全屏对话框回调问题

我无法理解某些事情但让我首先描述一下我的设置我有一个引用 3 个片段的活动每个片段都会在正确的时间显示这是 ChildrenSpecificationFragment 的样子如果用户单击浮动操作按钮则会打开以下 DialogFr
解析/反序列化 MTOM/XOP 数据 .NET

我如何解析反序列化MTOM XOP我使用 WCF 从 Web 服务获得的响应我在磁盘上有回复我已复制以下回复 Date Wed 02 May 2012 09 38 57 GMT Server Microsoft IIS 6 0 P3P
SceneKit 将统一向量传递给着色器修改器

我正在尝试通过GLKVector4到一个着色器该着色器应该将其接收为vec4 我正在使用片段着色器修改器 material shaderModifiers SCNShaderModifierEntryPoint fragment shad
Netbeans 自动完成变量代码

我发现了一个有趣的 Stackoverflow 主题但这是一个旧主题我担心人们不会再做出反应所以我希望可以创建一个新主题首先我正在使用 Netbeans 7 2 并且我想更多地使用自动代码完成它适用于带有的方法类已经但我
如何在 Linux 上初始化共享库

我正在 Linux 下使用 C 开发一个共享库我希望这个库使用 log4cxx 进行日志记录但是我不确定如何设置为了让 log4cxx 工作我需要创建一个记录器对象如何确保在加载库时创建该对象我怀疑最简单的方法是将记录器对象创
在Wordpress的特定页面上运行特定的Js

我想在特定页面上运行特定的js 即 wwww custom com english 我尝试了以下两个代码 header php 和functions php 但它们都不起作用 Code 1 Code 2 function my script
exifinterface 27.1.0 ，animated-vector-drawable:27.1.1 ，所有 com.android.support 库必须使用完全相同的版本

为什么 gradle 总是说所有 com android support 库必须使用完全相同的版本规范混合版本可能导致运行时崩溃成立版本 27 1 1 27 1 0 例子包括com android support animated
减去日历对象中的天数[重复]

这个问题在这里已经有答案了可能的重复有人知道使用java日历减去X天的日期的简单方法吗我需要给定日期 givenDate 减去 365 天 Calendar calendar Calendar getInstance calendar
在使用 Scrapy 进行身份验证时抓取 LinkedIn

所以我读过在 Scrapy 中使用经过身份验证的会话进行爬网我挂断了我 99 确信我的解析代码是正确的我只是不相信登录正在重定向并且成功我也遇到了 check login response 的问题不确定它正在检查哪个页面尽管退出

在使用 Scrapy 进行身份验证时抓取 LinkedIn

在使用 Scrapy 进行身份验证时抓取 LinkedIn 的相关文章

随机推荐

热门标签