screenscraping

Python Scrapy：allowed_domains从数据库添加新域

我需要向 allowed domains 添加更多域因此我没有收到已过滤的异地请求我的应用程序获取从数据库获取的网址因此我无法手动添加它们我试图覆盖蜘蛛init 像这样 def init self super CrawlSpide

screenscraping webscraping Scrapy

curl 无法获取网页内容，为什么？

我正在使用curl 脚本转到链接并获取其内容以进行进一步操作以下是链接和curl脚本

php cURL screenscraping webscraping

Watir 更改 Mozilla Firefox 首选项

我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作我正在尝试自动将一些文件保存到某个目录因此在我的 Mozilla 设置中我将默认下载目录设置为桌面并选择自动保存文件然而当我开始运行脚本时这些更改并未反映出来似乎

ruby scripting Automation screenscraping watir

使用 HtmlAgilityPack 解析 dl

这是我尝试使用 ASP Net C 中的 Html Agility Pack 解析的示例 HTML div class content div dl dt b a href 1 html title 1 1 a b dt dd First

c aspnet screenscraping htmlagilitypack

使用 HTMLAgilityPack 从节点的子节点中选择所有

我有以下代码用于获取 html 页面将网址设置为绝对然后将链接设置为 rel nofollow 并在新窗口选项卡中打开我的问题是关于将属性添加到 a s string url http www mysite com string s

c screenscraping htmlagilitypack

Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext

python webscraping screenscraping Scrapy

PhantomJS 无法打开 HTTPS 站点

我使用以下基于 loadspeed js 示例的代码来打开一个 https 站点该站点也需要 http 服务器身份验证 var page require webpage create system require system t add

https screenscraping PhantomJS

从 Wikipedia XML 转储获取静态 HTML 文件

我希望能够从巨大的即使是压缩的英语维基百科 XML 转储文件中获取相对最新的静态 HTML 文件enwiki 最新 pages articles xml bz2 http download wikimedia org enwiki la

xmlparsing screenscraping webcrawler mediawiki wikipedia

Xpath 和通配符

我尝试了几种组合但没有成功该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化因此我无法使用 foreach 循环遍历节点有没有办法使用通配符并将 xp

c xpath screenscraping htmlparsing htmlagilitypack

HTMLAgilityPack 中的 XPath 选择无法按预期工作

我正在用 C 编写简单的屏幕抓取程序为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入页面上有 2 个表单我不希望来自另一个表单的输入并且此表单中的所有输入都放置在不同的表 div 中或者仅放置在该表单的第

c xpath screenscraping

HtmlUnit 的替代方案

迄今为止我一直在研究可用的无头浏览器发现 HtmlUnit 的使用非常广泛与 HtmlUnit 相比我们是否有任何具有可能优势的 HtmlUnit 替代方案谢谢纳恩据我所知 HtmlUnit 是最强大的无头浏览器你对此有什么

screenscraping webcrawler HtmlUnit headlessbrowser

页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格我在 python 中使用 urllib 包然后使用正则表达式来获取价格数据当我让 python 脚本运行时它最初会运行一段时间几分钟然后开始抛出异常 HTTP 错误 503 服务不可用

python screenscraping urllib stockquotes googlefinance

使用 Python 抓取和解析 Google 搜索结果

我问了一个question https stackoverflow com questions 7722876 web mining or scraping or crawling what tool library should i us

python screenscraping webscraping googlesearchapi

使用 javascript 屏幕延迟抓取网站 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试抓取一个有瞬间 JavaScript 延迟的网站我目前正在使用 python 进行抓取每当我获取页面时 JavaSc

javascript python screenscraping webscraping scraper

如何在此上下文中使用 WebClient.DownloadDataAsync() 方法？

我的计划是让用户在我的程序中写下电影标题我的程序将异步提取适当的信息这样 UI 就不会冻结这是代码 public class IMDB WebClient WebClientX new WebClient byte Buffer nu

c Asynchronous Download screenscraping

用scrapy一一爬取网站列表

我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存有什么办法可以设置scrapy一次抓取一两个网站您可以尝试使用concurrent requests 1以免数据超载 htt

python screenscraping webcrawler Scrapy

Node.js 抓取工具中的内存泄漏

这是一个用 JavaScript 和 Node js 编写的简单抓取工具用于抓取 Wikipedia 中的元素周期表元素数据依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http

javascript memoryleaks nodejs screenscraping

使用 PHP 从网页中提取特定数据[重复]

这个问题在这里已经有答案了可能的重复 PHP 中的 HTML 抓取 https stackoverflow com questions 34120 html scraping in php 我想知道是否有任何方法可以从网页获取特定的文本字

php html screenscraping

网页抓取、屏幕抓取、数据挖掘技巧？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

Java screenscraping htmlparsing datamining webscraping

Ruby 的“open_uri”是否在读取或失败后可靠地关闭套接字？

我一直在使用open uri拉下 ftp 路径作为数据源一段时间但突然发现我几乎连续不断地收到 530 抱歉已连接允许的最大客户端数 95 我不确定我的代码是否有问题或者是否是其他人正在访问服务器不幸的是我似乎无法真正确定谁有问题

rubyonrails ruby rubyonrails3 screenscraping