Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Python Scrapy:allowed_domains从数据库添加新域
我需要向 allowed domains 添加更多域 因此我没有收到 已过滤的异地请求 我的应用程序获取从数据库获取的网址 因此我无法手动添加它们 我试图覆盖蜘蛛init 像这样 def init self super CrawlSpide
screenscraping
webscraping
Scrapy
curl 无法获取网页内容,为什么?
我正在使用curl 脚本转到链接并获取其内容以进行进一步操作 以下是链接和curl脚本
php
cURL
screenscraping
webscraping
Watir 更改 Mozilla Firefox 首选项
我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作 我正在尝试自动将一些文件保存到某个目录 因此 在我的 Mozilla 设置中 我将默认下载目录设置为桌面并选择自动保存文件 然而 当我开始运行脚本时 这些更改并未反映出来 似乎
ruby
scripting
Automation
screenscraping
watir
使用 HtmlAgilityPack 解析 dl
这是我尝试使用 ASP Net C 中的 Html Agility Pack 解析的示例 HTML div class content div dl dt b a href 1 html title 1 1 a b dt dd First
c
aspnet
screenscraping
htmlagilitypack
使用 HTMLAgilityPack 从节点的子节点中选择所有
我有以下代码用于获取 html 页面 将网址设置为绝对 然后将链接设置为 rel nofollow 并在新窗口 选项卡中打开 我的问题是关于将属性添加到 a s string url http www mysite com string s
c
screenscraping
htmlagilitypack
Scrapy 仅抓取每个页面的第一个结果
我目前正在尝试运行以下代码 但它只保留每个页面的第一个结果 知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
python
webscraping
screenscraping
Scrapy
PhantomJS 无法打开 HTTPS 站点
我使用以下基于 loadspeed js 示例的代码来打开一个 https 站点 该站点也需要 http 服务器身份验证 var page require webpage create system require system t add
https
screenscraping
PhantomJS
从 Wikipedia XML 转储获取静态 HTML 文件
我希望能够从巨大的 即使是压缩的 英语维基百科 XML 转储文件中获取相对最新的静态 HTML 文件enwiki 最新 pages articles xml bz2 http download wikimedia org enwiki la
xmlparsing
screenscraping
webcrawler
mediawiki
wikipedia
Xpath 和通配符
我尝试了几种组合但没有成功 该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化 因此我无法使用 foreach 循环遍历节点 有没有办法使用通配符并将 xp
c
xpath
screenscraping
htmlparsing
htmlagilitypack
HTMLAgilityPack 中的 XPath 选择无法按预期工作
我正在用 C 编写简单的屏幕抓取程序 为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入 页面上有 2 个表单 我不希望来自另一个表单的输入 并且此表单中的所有输入都放置在不同的表 div 中 或者仅放置在该表单的第
c
xpath
screenscraping
HtmlUnit 的替代方案
迄今为止 我一直在研究可用的无头浏览器 发现 HtmlUnit 的使用非常广泛 与 HtmlUnit 相比 我们是否有任何具有可能优势的 HtmlUnit 替代方案 谢谢 纳恩 据我所知 HtmlUnit 是最强大的无头浏览器 你对此有什么
screenscraping
webcrawler
HtmlUnit
headlessbrowser
页面抓取以从谷歌财经获取价格
我试图通过抓取谷歌金融页面来获取股票价格 我在 python 中使用 urllib 包 然后使用正则表达式来获取价格数据 当我让 python 脚本运行时 它最初会运行一段时间 几分钟 然后开始抛出异常 HTTP 错误 503 服务不可用
python
screenscraping
urllib
stockquotes
googlefinance
使用 Python 抓取和解析 Google 搜索结果
我问了一个question https stackoverflow com questions 7722876 web mining or scraping or crawling what tool library should i us
python
screenscraping
webscraping
googlesearchapi
使用 javascript 屏幕延迟抓取网站 [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 我正在尝试抓取一个有瞬间 JavaScript 延迟的网站 我目前正在使用 python 进行抓取 每当我 获取 页面时 JavaSc
javascript
python
screenscraping
webscraping
scraper
如何在此上下文中使用 WebClient.DownloadDataAsync() 方法?
我的计划是让用户在我的程序中写下电影标题 我的程序将异步提取适当的信息 这样 UI 就不会冻结 这是代码 public class IMDB WebClient WebClientX new WebClient byte Buffer nu
c
Asynchronous
Download
screenscraping
用scrapy一一爬取网站列表
我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存 有什么办法可以设置scrapy一次抓取一两个网站 您可以尝试使用concurrent requests 1以免数据超载 htt
python
screenscraping
webcrawler
Scrapy
Node.js 抓取工具中的内存泄漏
这是一个用 JavaScript 和 Node js 编写的简单抓取工具 用于抓取 Wikipedia 中的元素周期表元素数据 依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http
javascript
memoryleaks
nodejs
screenscraping
使用 PHP 从网页中提取特定数据[重复]
这个问题在这里已经有答案了 可能的重复 PHP 中的 HTML 抓取 https stackoverflow com questions 34120 html scraping in php 我想知道是否有任何方法可以从网页获取特定的文本字
php
html
screenscraping
网页抓取、屏幕抓取、数据挖掘技巧? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
Java
screenscraping
htmlparsing
datamining
webscraping
Ruby 的“open_uri”是否在读取或失败后可靠地关闭套接字?
我一直在使用open uri拉下 ftp 路径作为数据源一段时间 但突然发现我几乎连续不断地收到 530 抱歉 已连接允许的最大客户端数 95 我不确定我的代码是否有问题 或者是否是其他人正在访问服务器 不幸的是 我似乎无法真正确定谁有问题
rubyonrails
ruby
rubyonrails3
screenscraping
1
2
3
4
5
6
7
»