如果 socket.setdefaulttimeout() 不起作用，我该怎么办？

2024-01-05

我正在编写一个脚本（多线程）来从网站检索内容，并且该网站不是很稳定，所以时不时地会出现挂起的 http 请求，甚至无法超时socket.setdefaulttimeout()。由于我无法控制该网站，我唯一能做的就是改进我的代码，但我现在没有想法了。

示例代码：

socket.setdefaulttimeout(150)

MechBrowser = mechanize.Browser()
Header = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)'}
Url = "http://example.com"
Data = "Justatest=whatever&letstry=doit"
Request = urllib2.Request(Url, Data, Header)
Response = MechBrowser.open(Request)
Response.close()

我应该怎么做才能强制退出挂起的请求？其实我想知道为什么socket.setdefaulttimeout(150)一开始就不工作。有人可以帮我吗？

补充：（是的，问题仍然没有解决）

好的，我已按照 tomasz 的建议将代码更改为MechBrowser.open(Request, timeout = 60)，但同样的事情也会发生。到目前为止，我仍然随机收到挂起的请求，有时是几个小时，有时可能是几天。现在我该怎么做？有没有办法强制退出这些挂起的请求？

While socket.setsocketimeout将为新套接字设置默认超时，如果您不直接使用套接字，则可以轻松覆盖该设置。特别是，如果库调用socket.setblocking在其套接字上，它将重置超时。

urllib2.open有超时参数，但是，没有超时urllib2.Request。当你使用mechanize，你应该参考他们的文档：

从 Python 2.6 开始，urllib2 在内部使用 Request 对象的 .timeout 属性。但是，urllib2.Request 没有超时构造函数参数，并且 urllib2.urlopen() 忽略此参数。 mechanize.Request 有一个超时构造函数参数，用于设置同名属性，mechanize.urlopen() 不会忽略超时属性。

source: http://wwwsearch.sourceforge.net/mechanize/documentation.html http://wwwsearch.sourceforge.net/mechanize/documentation.html

- -编辑 - -

如果其中之一socket.setsockettimeout或将超时传递给mechanize适用于较小的值，但不适用于较高的值，问题的根源可能完全不同。有一件事是你的库可能会打开多个连接（这里归功于@Cédric Julien），因此超时适用于每次尝试socket.open，如果它没有因第一次失败而停止 - 可能需要长达timeout * num_of_conn秒。另一件事是socket.recv：如果连接真的很慢并且您很不幸，整个请求可能需要长达timeout * incoming_bytes与每个socket.recv我们可以得到一个字节，并且每个这样的调用都可以花费timeout秒。由于您不太可能遭受这种黑暗的场景（每个超时秒一个字节？您必须是一个非常粗鲁的男孩），因此很可能需要花费很长时间才能获得非常慢的连接和非常高的超时。

您唯一的解决方案是强制整个请求超时，但这里与套接字无关。如果你使用的是 Unix，你可以使用简单的解决方案ALARM信号。您设置要发出的信号timeout秒，您的请求将被终止（不要忘记捕获它）。您可能喜欢使用with声明使其干净且易于使用，例如：

import signal, time

def request(arg):
  """Your http request"""
  time.sleep(2)
  return arg

class Timeout():
  """Timeout class using ALARM signal"""
  class Timeout(Exception): pass

  def __init__(self, sec):
    self.sec = sec

  def __enter__(self):
    signal.signal(signal.SIGALRM, self.raise_timeout)
    signal.alarm(self.sec)

  def __exit__(self, *args):
    signal.alarm(0) # disable alarm

  def raise_timeout(self, *args):
    raise Timeout.Timeout()

# Run block of code with timeouts
try:
  with Timeout(3):
    print request("Request 1")
  with Timeout(1):
    print request("Request 2")
except Timeout.Timeout:
  print "Timeout"

# Prints "Request 1" and "Timeout"

如果想要比这更便携，你必须使用一些更大的枪，例如multiprocessing，因此您将生成一个进程来调用您的请求并在过期时终止它。由于这将是一个单独的过程，您必须使用某些东西将结果传输回您的应用程序，它可能是multiprocessing.Pipe。下面是例子：

from multiprocessing import Process, Pipe
import time

def request(sleep, result):
  """Your http request example"""
  time.sleep(sleep)
  return result

class TimeoutWrapper():
  """Timeout wrapper using separate process"""
  def __init__(self, func, timeout):
    self.func = func
    self.timeout = timeout

  def __call__(self, *args, **kargs):
    """Run func with timeout"""
    def pmain(pipe, func, args, kargs):
      """Function to be called in separate process"""
      result = func(*args, **kargs) # call func with passed arguments
      pipe.send(result) # send result to pipe

    parent_pipe, child_pipe = Pipe() # Pipe for retrieving result of func
    p = Process(target=pmain, args=(child_pipe, self.func, args, kargs))
    p.start()
    p.join(self.timeout) # wait for prcoess to end

    if p.is_alive():
      p.terminate() # Timeout, kill
      return None # or raise exception if None is acceptable result
    else:          
      return parent_pipe.recv() # OK, get result

print TimeoutWrapper(request, 3)(1, "OK") # prints OK
print TimeoutWrapper(request, 1)(2, "Timeout") # prints None

如果您想强制请求在固定秒数后终止，您实际上没有太多选择。socket.timeout将为单个套接字操作（连接/接收/发送）提供超时，但如果您有多个套接字，您可能会遭受很长的执行时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如果 socket.setdefaulttimeout() 不起作用，我该怎么办？的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

我可以自动按下带有 URL 的网页上的按钮吗？

我希望能够自动单击网页上的此表单按钮
检查原始字段的类型

我正在尝试确定对象上字段的类型我不知道传递给我的对象的类型但我需要找到以下字段longs 盒装的很容易区分Long但原始的long似乎更难 I can确保传递给我的对象只有Longs 不是原始类型但我不想所以我所拥有的是 for F
在 Crystal Report 中存储当前行的前一行值

我想检索当前行中的前一行值如下所示 Crystal Report 2008 Date PreviousBalance Loan Collection CurrentBalance 14 02 2012 00 00 10000 00 00
如何在 Symfony Response 中包含 Web 调试工具栏？

当我渲染模板并从控制器返回响应时页面底部有一个漂亮的 Web 调试工具栏当我不使用模板并通过自己创建 Response 对象返回响应时是否可以使此栏出现应该足以确保有一个有效的响应 HTML 代码中包含的块如果主体部分丢失则不
如何从一个 SELECT 语句插入多个表

我正在尝试从一个 select 语句插入多个表是否可以这就是我在这里尝试做的事情 insert into table1 Name Address insert into table2 Name Address select Name A
为什么设置初始化值会阻止在 TensorFlow 中将变量放置在 GPU 上？

当我尝试运行以下非常简单的 TensorFlow 代码时出现异常尽管我实际上是从文档中复制了它 import tensorflow as tf with tf device gpu 0 x tf Variable 0 name x ses
anaconda下导入OpenCV失败

我正在尝试在 Anaconda 下使用 OpenCV for Python2 7 8 final 0 我全新安装了 Anaconda 然后使用 conda 工具导入了 OpenCV 的最新 win 64 发行版 2 4 9 1 np19py
Nhibernate QueryOver Orderby

我试图在 queryover 调用上解耦 orderby 但这无法编译 protected static void AddOrder
C# 如何禁用某个按键

当按下 ENTER 键时如何防止插入符号转到文本框中的下一行换句话说如何禁用文本框中的 ENTER 或 RETURN 键你可以写OnKeyDown事件你可以使用e SuppressKeyPress告诉 NET 您处理该密钥像这样
如何使用 C++ std::ostream 和类似 printf 的格式？

我正在学习C cout是一个实例std ostream班级如何用它打印格式化字符串我仍然可以使用printf 但我想学习一种正确的 C 方法可以利用 C 的所有优点我认为这应该是可能的std ostream 但我找不到正确的方法在
如何使用 socket.io 判断哪个套接字连接单击了按钮？

如果页面上有一个按钮并且您想确保在另一个套接字单击其按钮之前无法再次单击该按钮如果套接字 a 单击我应该禁用该按钮直到另一个套接字发送一条消息表明他们单击了按钮然后返回第四个 buttonTurns on click funct
如何在 Archlinux 中使用 gcc 7.2 编译 gcc 6.4.0

我正在尝试在 Archlinux 中与 gcc 7 2 独立编译 gcc 6 4 0 配置如下 configure prefix INSTALL PREFIX enable languages c c fortran enable thre
Lambda 函数作为构造函数中 std::function 的默认参数

我希望在类的构造函数中为函子参数提供一个默认函子作为一个最小的例子我想出了一个应该作为过滤器的类它过滤类型的元素T如果过滤器函数返回 true 过滤器函数应该在构造函数中提供默认为接受所有过滤器函数 template
如何使用循环在每个 div 中添加类

这是我的结构我想在每两个 div 中添加奇偶类所以我怎样才能使用 JavaScript 循环实现这个结构我尝试了一切但我什么也没得到我正在学习 JavaScript 循环所以任何人都请帮助我 var i 0 CollectionInn
动态代码执行：字符串 -> 运行时代码 VB.net

我正在尝试在运行时执行字符串内的一些代码 IE Dim code As String IIf 1 2 True False 我如何运行里面的代码code细绳正如 ElektroStudios 所说正确的方法是使用CodeDom编译器 h
ExtJS 6 plugin.rowwidget 在创建行主体组件时获取绑定记录

我有一个网格Ext grid plugin RowWidget http docs sencha com extjs 6 2 0 classic Ext grid plugin RowWidget html 当我展开行时我必须使用行记录数
Jquery UI 选项卡：下一个和上一个基于选择框启用/禁用

我目前正在使用 Jquery UI 选项卡我只能使用下一个上一个按钮进行操作这将迫使用户按顺序浏览选项卡在我的第一个选项卡中我有一组动态选择框我试图让用户在启用下一步按钮之前从对应的类别及其子类别中选择一个类别及其子类别但
在 C++ 中将结构体作为构造函数参数传递

我已尽我所能但在这个特定主题上找不到太多内容我必须采用大量变量可能是多个对象并将它们传递给一组函数所以我认为这是最好的方法我想将一个结构传递给未定义该结构的类的构造函数这可能吗我的代码看起来像这样 class myClass
在自定义 JsonConverter 的 ReadJson 方法中处理 null 对象

我有一个 Newtonsoft JSON NETJsonConverter帮助反序列化类型为抽象类的属性它的要点如下 public class PetConverter JsonConverter public override bool
如果 socket.setdefaulttimeout() 不起作用，我该怎么办？

我正在编写一个脚本多线程来从网站检索内容并且该网站不是很稳定所以时不时地会出现挂起的 http 请求甚至无法超时socket setdefaulttimeout 由于我无法控制该网站我唯一能做的就是改进我的代码但我现在没有想法

如果 socket.setdefaulttimeout() 不起作用，我该怎么办？

如果 socket.setdefaulttimeout() 不起作用，我该怎么办？ 的相关文章

随机推荐

热门标签

如果 socket.setdefaulttimeout() 不起作用，我该怎么办？的相关文章