扫描网站内容（快速）

2024-03-30

我的数据库中有数千个网站，我想在所有网站中搜索特定字符串。最快的方法是什么？我认为我应该首先获取每个网站的内容 - 这就是我这样做的方式：

import urllib2, re
string = "search string"
source = urllib2.urlopen("http://website1.com").read()
if re.search(word,source):
    print "My search string: "+string

并搜索该字符串。但这非常慢。我怎样才能在Python中加速它？

我不认为你的问题是程序 - 事实上你正在对数千个站点执行 HTTP 请求。您可以研究涉及某种并行处理的不同解决方案，但无论解析代码的效率如何，您都将遇到当前实现中的请求瓶颈。

这是一个使用的基本示例Queue and threading模块。我建议阅读多处理与多线程的好处（例如@JonathanV提到的帖子），但这希望对理解正在发生的事情有所帮助：

import Queue
import threading
import time
import urllib2

my_sites = [
    'http://news.ycombinator.com',
    'http://news.google.com',
    'http://news.yahoo.com',
    'http://www.cnn.com'
    ]

# Create a queue for our processing
queue = Queue.Queue()


class MyThread(threading.Thread):
  """Create a thread to make the url call."""

  def __init__(self, queue):
    super(MyThread, self).__init__()
    self.queue = queue

  def run(self):
    while True:
      # Grab a url from our queue and make the call.
      my_site = self.queue.get()
      url = urllib2.urlopen(my_site)

      # Grab a little data to make sure it is working
      print url.read(1024)

      # Send the signal to indicate the task has completed
      self.queue.task_done()


def main():

  # This will create a 'pool' of threads to use in our calls
  for _ in range(4):
    t = MyThread(queue)

    # A daemon thread runs but does not block our main function from exiting
    t.setDaemon(True)

    # Start the thread
    t.start()

  # Now go through our site list and add each url to the queue
  for site in my_sites:
    queue.put(site)

  # join() ensures that we wait until our queue is empty before exiting
  queue.join()

if __name__ == '__main__':
  start = time.time()
  main()
  print 'Total Time: {0}'.format(time.time() - start)

求好资源threading特别是，请参阅 Doug Hellmann 的帖子here http://www.doughellmann.com/PyMOTW/threading/，一篇 IBM 文章here http://www.ibm.com/developerworks/aix/library/au-threadingpython/（这已经成为我的一般线程设置，如上面所证明的）和实际的文档here http://docs.python.org/2/library/threading.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

扫描网站内容（快速）的相关文章

动态向类添加类方法

我有以下片段 FEED TYPES fan mail Fan Mail review Review tip Tip fan user Fan User fan song Fan Song fan album Fan Album played
将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

多条路线使用同一个控制器？

有没有办法编写以下路由这样您就不必每次都指定相同的控制器 get jobs gt pages jobs get contact gt pages contact get terms gt pages terms get privacy g
如何从 GitHub Actions 中的重定向输出中删除所有无关输出？

我有一个使用 Terraform 进行部署的 GitHub Actions 工作流程当 Terraform 完成后我想获取 Terraform 输出并将其发送到工作流程中的下一个作业以便可以提取和使用各个部分具体来说我的 Terr
如何让 XML 注释出现在不同的项目 (dll) 中？
ClusterManager 重新绘制 Google 地图 v2 实用程序的标记

我正在发出服务器请求当我收到服务器的响应时我正在 UI 线程上执行ClusterManager addItem 但这个项目没有在地图上绘制只有当我进行缩放更新时新添加的项目才开始出现我也尝试调试渲染器但是onBeforeClu
从 Android 中的 DatePickerDialog 中删除标题

我想将 DatePickerDialog 限制为明天的最小值当我输入下面显示的代码时限制就起作用了但是包含日期的标题文本看起来像标题我怎样才能解决这个问题这是我的代码 Calendar tempDate Calendar get
WASAPI：选择专用输出的波形格式

我正在尝试使用 WASAPI 打开带有输出设备的独占流我在选择可接受的格式时遇到了困难因为似乎没有关于给定设备接受哪些格式的提示就我而言 IAudioClient GetMixFormat 否则会返回设备的一种默认格式返回一种不能在
排序错误

我正在使用 Microsoft SQL Server Management Studio 我有两个数据库一个是系统数据库其中包含 master 数据库另一个是我的数据库名为CCTNS CAS DE DB 当我尝试通过使用以下工具的工
Android 在等待位置时显示进度对话框

我正在使用以下示例开发基于位置的应用程序 http www androidhive info 2012 07 android gps location manager tutorial http www androidhive info 2
C# 中的高质量图形/波形显示组件

我正在寻找一种使用 C 编写的快速专业外观且可定制的波形显示组件我想在时域和频域中主要显示实时音频波形快我希望能够缩放更改轴设置显示多个通道自定义感觉和颜色等有人知道任何事情吗无论是商业的还是非商业的谢谢你 Diego
在 Git 中切换分支不会删除目录

我在 Git 中创建了两个分支 git branch F1 git branch F2 接下来我切换到 F1 git checkout F1 I rename my UnitTests目录到Tests git mv UnitTests T
使用 LimitedConcurrencyLevelTaskScheduler 时延续任务挂起

我正在研究在 C NET 4 0 中使用 TPL 我创建了一个自定义 API 来简化 Web 请求的创建和下载内容异步使用延续任务那部分工作正常当我尝试使用时出现的问题LimitedConcurrencyLevelTaskSched
使用 Mocks 测试 Jest 和 Typescript

我正在使用 Typescript 和 Jest 尝试测试我的 Angular 和 Ionic 应用程序的一些组件但问题不仅限于 Angular 或 Ionic 因此我正在尝试让 Jest 的模拟功能发挥作用我只是创建一个虚拟类我想尝
Visual Studio 2013 - 未安装 Visual Basic/Visual C# Web 模板

我已在我的计算机上安装了 Visual Studio 2013 Premium MSDN 许可证然而 ASP NET Web 应用程序模板不存在除了 Version2012 它为我提供了 MVC 4 请参见下面的屏幕截图我已经卸载并重
Flask Restful：如何使用 fields.Dict() 记录响应主体？

In flask restplus 我想对具有嵌套列表结构的响应体进行建模因此每当进行 api 调用时响应体都会返回我期望的内容在响应主体中它有一个嵌套结构我不知道如何记录它我要使用吗fields Dict 谁能告诉我如何实现这
python 波形符一元运算符作为否定 numpy bool 数组

应该是一个简单的问题但我无法在任何地方找到答案这 python 中的运算符被记录为按位反转运算符美好的不过我注意到看似精神分裂的行为即 True gt 2 1 gt 2 False gt 1 0 gt 1 numpy array
有没有办法增加 IntelliSense 的字体大小？

我无法在 Visual Studio 2017 中找到该选项我知道您可以更改正在编写的代码的字体但没有看到 IntelliSense 选项让我认为这是不可能的工具选项环境字体和颜色 gt 语句完成除了编辑器工具提示选项更改
@ionic/angular 4.0.0-beta.13：不允许加载本地资源：使用 webview 2.2.3 - Ionic CLI 4.3.1

从相机拍完照片后这些路径就出现了 file data data xxx xxx xxx xxx files 1542782360167 jpg 我使用的是Ionic 4 其中WebView是2 2 3 通过应用观察到所有类型的回复但没有
Bootstrap 将容器置于页面中间[重复]

这个问题在这里已经有答案了 I am brand new to front end and am practising by building a fake e commerce website I ve had a few issues
如何在C#中有效地在桌面上绘图？

我想用C 直接在桌面上画图经过一番搜索我最终使用了桌面 HDC 中的 Graphics 对象空然后我使用这个 Graphics 对象正常绘画问题是当屏幕的任何部分被重绘时我的形状就会丢失我尝试了一个 While 循环但它
扫描网站内容（快速）

我的数据库中有数千个网站我想在所有网站中搜索特定字符串最快的方法是什么我认为我应该首先获取每个网站的内容这就是我这样做的方式 import urllib2 re string search string source urllib2

扫描网站内容（快速）

扫描网站内容（快速） 的相关文章

随机推荐

热门标签

扫描网站内容（快速）的相关文章