HTTP 错误 999：请求被拒绝

2024-04-17

我正在尝试使用 BeautifulSoup 从 LinkedIn 抓取一些网页，但不断收到错误“HTTP 错误 999：请求被拒绝”。有没有办法避免这个错误。如果您查看我的代码，我尝试过 Mechanize 和 URLLIB2，两者都给了我相同的错误。

from __future__ import unicode_literals
from bs4 import BeautifulSoup
import urllib2
import csv
import os
import re
import requests
import pandas as pd
import urlparse
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import urllib
import urlparse
import pdb
import codecs
from BeautifulSoup import UnicodeDammit
import codecs
import webbrowser
from urlgrabber import urlopen
from urlgrabber.grabber import URLGrabber
import mechanize

fout5 = codecs.open('data.csv','r', encoding='utf-8', errors='replace')

for y in range(2,10,1):


    url = "https://www.linkedin.com/job/analytics-%2b-data-jobs-united-kingdom/?sort=relevance&page_num=1"

    params = {'page_num':y}

    url_parts = list(urlparse.urlparse(url))
    query = dict(urlparse.parse_qsl(url_parts[4]))
    query.update(params)

    url_parts[4] = urllib.urlencode(query)
    y = urlparse.urlunparse(url_parts)
    #print y



    #url = urllib2.urlopen(y)
    #f = urllib2.urlopen(y)

    op = mechanize.Browser() # use mecahnize's browser
    op.set_handle_robots(False) #tell the webpage you're not a robot
    j = op.open(y)
    #print op.title()


    #g = URLGrabber()
    #data = g.urlread(y)
    #data = fo.read()
    #print data

    #html = response.read()
    soup1 = BeautifulSoup(y)
    print soup1

您应该使用领英 REST API https://developer.linkedin.com/docs/rest-api，直接或使用python-linkedin https://pypi.python.org/pypi/python-linkedin。它允许直接访问数据，而不是尝试抓取大量 JavaScript 的网站。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HTTP 错误 999：请求被拒绝的相关文章

sqlalchemy，混合属性 case 语句

这是我试图通过 sqlalchemy 生成的查询 SELECT order id AS id order created at AS created at order updated at AS updated at CASE WHEN b
Python 3D 插值加速

我有以下用于插入 3D 体积数据的代码 Y X Z np shape volume xs np arange 0 X ys np arange 0 Y zs np arange 0 Z points list zip np ravel re
内部错误：当前事务被中止，命令被忽略直到事务块结束

使用多处理库在子进程中执行数据库调用时出现此错误 Visit Pastie http pastie org 811424 内部错误当前事务被中止命令被忽略直到交易块结束这是一个 Postgresql 数据库使用psycopg2司机
Python：文本覆盖在所有窗口顶部，包括 Linux 中的全屏

我正在尝试用 python 编写一个简单的脚本在所有窗口和全屏应用程序之上输出文本该脚本的目的是以类似于 Steam FPS 计数器工作方式的方式输出平均负载和可用内存以及其他有用的统计数据到目前为止我尝试了 pygame 但据我
for 循环遍历单词

我之前的帖子引起了很多混乱其中充斥着与我的问题无关的答案我的错是没有澄清事情我标记了该帖子这是新帖子所以基本上我想做一个单词的连接 EG1 input jason sonny nyorth output jason sonny n
Python套接字模块：Recv()数据响应被切断

解释我目前正在尝试使用 python 脚本控制智能电源板为了实现这一点我使用了带有套接字模块的 TCP 连接大约 75 的情况下我会得到我正在寻找的响应数据并且一切都运行良好然而大约 25 的情况下响应会以完全相同的长度
在嵌套有序字典 python 中查找给定键的值

我试图从嵌套的 OrderedDict 中查找给定键的值关键点我不知道这个字典会嵌套多深我正在寻找的键的名称是不变的它将位于字典中的某个位置我想返回本例中名为 powerpoint color 的键的值 mydict Ordere
如何在屏幕上锚定 Tkinter 窗口（不可移动窗口）

我正在尝试在特定位置打开 tkinter 如果它是不可移动的那就更好了我搜索文档和其他内容但没有找到任何相关内容最好的方法是将顶部或底部固定在一个位置 x y 如果需要我可以调整窗口大小 def my functions prin
在Python中的自定义类中实现“with object() as f”的使用

我必须在 python 中打开一个类似文件的对象它是通过 dev 的串行连接然后关闭它在我的班级的几种方法中这已经完成了好几次我的做法是在构造函数中打开文件然后在析构函数中关闭它不过我遇到了奇怪的错误我认为这与垃圾收集器有
如何在python中修改html树？

假设有一些可变片段html代码 p span class code string 1 span class code string 2 span class code string 3 span span span p p span cla
ftplib: 在 LIST 期间/之后出现 socket.error // ssl._sslobj.shutdown() / 连接超时

我尝试使用客户端证书连接到 FTPS 服务器我尝试了两台不同的服务器我无法控制它们但应该非常相似连接建立 PWD 命令成功在一台服务器上 LIST 命令成功但在第二台服务器上它产生正确的结果文件列表但之后显然在 SSL
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
在Python中单击按钮时隐藏标签

在 Python Tkinter 中单击按钮时如何隐藏现有标签这实际上取决于您使用的几何管理器如果你使用 lbl Tkinter Label parent 要创建标签您将使用以下方法之一来隐藏它 lbl grid forget lbl
Python 单行代码

我想要用 Python 编写以下代码的单行解决方案但是如何实现呢 total 0 for ob in self oblist total sum v amount for v in ob anoutherob 它返回总价值我想要它是单行
绘制顶部有函数线的直方图

我正在尝试使用 SciPy 进行统计使用 matplotlib 进行绘图在 Python 中进行一些分布绘图和拟合我在创建直方图等方面运气很好 seed 2 alpha 5 loc 100 beta 22 data ss gamma
使用 Jinja2 模板在 HTML 文本区域中显示 FastAPI 响应（元组）

这是我的 FastAPI 后端 main py from typing import Optional from fastapi import FastAPI Request Form from fastapi templating imp
与 pandas 的时间序列相关性

我有一些颗粒物传感器和 CSV 其时间序列如下传感器A date value date 2017 11 30 00 00 00 30 11 17 0 00 49 2017 11 30 00 02 00 30 11 17 0 02 51 2
在 Python 3 中，两个正数相乘会得到负输出

我有一个数据框df1 df1 head wght num links id y id x 3 133 0 000203 2 186 0 000203 2 5 6 0 000203 2 98 0 000203 2 184 0 000203 2
Selenium/ChromeDriver 未知策略错误

我目前使用 Python v3 5 1 Selenium v3 7 和 Chromedriver v2 33 当我运行以下命令时 from selenium import webdriver driver webdriver Chrome
带有 unicode 键的字典

Python 中是否可以使用 Unicode 字符作为字典的键我使用 Unicode 中的西里尔字母作为键当尝试通过键获取值时我得到以下回溯 Traceback most recent call last File baseCreat

随机推荐

R fromJSON 无法打开连接

我正在使用一种算法 R 它调用一个 Web 服务该服务对数据库进行查询并返回一个 JSON 对象 url lt paste https example com id 1 document lt fromJSON content url m
在 Apache Zeppelin 上运行 Pig 查询

我正在 Apache Zeppelin 中运行以下 Pig 查询 pig query A load Pig data using PigStorage as ExamName ExamId BITSID StudentName Issue
从函数中打开 fancybox

我正在尝试从我拥有的函数中打开一个 fancybox 简而言之我的 HTML 代码如下所示 a href modalMine click a 我的功能的一部分如下所示 function myfunction me me fancybox
针对 unsafePerformIO 的部门限制

工作中有人讨论过将其作为一项全部门政策禁止使用unsafePerformIO及其同类就我个人而言我并不介意因为我一直认为如果我发现自己想要使用它通常意味着我需要重新考虑我的方法这个限制听起来合理吗我似乎记得在某处读到它主要是
iOS：如何打开带有动画效果的相机？

我想以动画效果打开相机以便看起来相机仅在父屏幕中打开我正在使用相机覆盖屏幕在父屏幕中单击按钮事件时相机覆盖屏幕正在打开在相机覆盖屏幕中有一个取消按钮可以关闭相机因此在再次关闭相机时我需要显示动画效果看起来现在相机在同一个父屏幕中
Python 类中的属性初始化/声明：将它们放在哪里？

我想知道在 Python 中初始化对象属性的最佳实践是什么在类的主体中还是在 init 功能 i e class A object foo None vs class A object def init self self foo Non
在 postgresql 中生成自动 ID

用户表 ID Name 1 usr1 2 usr2 3 usr3 上表中 ID为主键我的要求是在将数据插入表中时我只想指定名字像INSERT INTO user VALUES usr4 执行查询后有没有办法自动为 usr4 创建ID
ACRA 行号不正确

我使用 android proguard ACRA 谁能告诉我为什么我收到的崩溃报告的行号不正确行号显然指向错误的陈述我无法知道崩溃的确切行号因此无法修复用户报告的错误这真的很烦人谢谢 PS 我使用的是我发布的版本对应的映射文件
如何设置 QBrush 的颜色动画

我想要动画颜色QBrush 更多详情请看下面的代码这是我的 h 文件 class Cell public QObject public QGraphicsRectItem Q OBJECT Q PROPERTY QBrush brush
Jquery 动态更改链接扩展名

我在很多页面都设置了链接例如 ul li a href someurl somefile html Some file a li li a href someurl somefile1 html Some file1 a li li a
CMake+Xcode：应用程序存档失败，具体取决于同一解决方案中的库。在 BUILD_TREE 而不是 Xcode/DerivedData 中构建 Archive？

几周前我们移植了代码库以使用 CMake 进行构建管理我们现在意识到当我们试图做到这一点时存在一个重大问题Archive依赖于同一 Xcode 解决方案中构建的一个或多个库的应用程序链接器失败因为它找不到所依赖的库并且该库
以编程方式更改小部件的渐变背景

我正在努力实现的目标 int colors new int colorDark colorLight GradientDrawable gd new GradientDrawable TOP BOTTOM colors remoteView
IIS 7.5 405 不允许从 StaticFileModule 进行 PUT 方法

我将第 3 方 xml 编辑器集成到我们的 Web 应用程序中并且保存函数直接对 Web 服务器上的文件执行 HTTP PUT 操作系统是使用 IIS 7 5 的 Windows Server 2008 R2 我们安装了 Web API
使用 API 蓝图记录查询参数

我正在尝试在 API 蓝图中记录查询参数但我不完全确定我是否正确完成了操作该资源如下所示 DELETE http baasar apiary mock com user appId userId 该请求将停用用户而以下请求将删除用户对
中可以有吗？

故事如下我正在使用 SWFObject 将 Flash 对象插入到我的页面中嵌入吃掉了我的span 所以我为此失去了所有 CSS 我正在考虑将所有 CSS 移至父级这样当 Flash 出现时我就不会丢失 CSS 样式我尝试过使用s
CSS :focus-within 选择器，用于具有 iframe 子元素的元素

我有一个这样的场景 container background yellow padding 40px container focus within background red iframe background white div cla
异步作业出错

我正在尝试创建一个不会阻止请求的异步任务用户发出请求任务将启动控制器将呈现作业正在运行这是为了避免请求被阻止等待任务完成任务完成后它将执行 onComplete 并对该任务的结果执行某些操作例如调用将向用户发送邮件的服务 E
循环遍历 Silverlight DataGrid 中的行

我有一种感觉我在这里遗漏了一些明显的东西但我找不到迭代 DataGrids DataGridRow 集合的方法我有一个网格其中包含我的班级集的集合的项目源我试图迭代这些行并突出显示满足特定条件的任何行但我一生都看不到如何实现您
在循环语句中生成 MVC3 RadioButton 列表

我的一位同事创建了一个模型如下所示 Model Serializable public class ModifyCollegeListModel public List
HTTP 错误 999：请求被拒绝

我正在尝试使用 BeautifulSoup 从 LinkedIn 抓取一些网页但不断收到错误 HTTP 错误 999 请求被拒绝有没有办法避免这个错误如果您查看我的代码我尝试过 Mechanize 和 URLLIB2 两者都给了我相

HTTP 错误 999：请求被拒绝

HTTP 错误 999：请求被拒绝 的相关文章

随机推荐

热门标签

HTTP 错误 999：请求被拒绝的相关文章