screenscraping

屏幕抓取：正则表达式还是 XQuery 表达式？

我正在回答一些面试的测验问题问题是关于我如何进行屏幕抓取也就是说假设您没有更好的结构化方法来直接查询信息例如网络服务则从网页中挑选内容我的解决方案是使用XQuery表达该表达式相当长因为我需要的内容在 HTML 层次结构中相

regex screenscraping xquery

无限滚动抓取网站

我写了很多抓取工具但我不太确定如何处理无限滚动条如今大多数网站例如 Facebook Pinterest 都有无限滚动条您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站步骤 1 使用 pi

python screenscraping scraper

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据但这需要我先登录我一直在使用 hpricot 成功抓取其他网站但我对使用 mechanize 还很陌生而且我真的对如何使用它感到困惑我看到这个例子经常被引用 require rubygems require

ruby authentication screenscraping mechanize hpricot

使用 C# 中的 asp.net 表单登录屏幕抓取网站？

是否可以为受表单登录保护的网站编写屏幕抓取程序当然我可以访问该网站但我不知道如何登录该网站并在 C 中保存我的凭据此外任何 C 屏幕截图的好例子将不胜感激这已经完成了吗这很简单您需要自定义登录 HttpPost 方法你可以

c screenscraping

Selenium：如何使用相同的类名选择第n个按钮

我正在尝试使用 css 类 btnProceed 选择第三个按钮

Java selenium screenscraping

使用 BeautifulSoup 和 Requests 抓取多个分页链接

Python 初学者在这里我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品但在迭代所有分页链接时遇到

python forloop webscraping beautifulsoup screenscraping

从登录后的页面获取 HTML

这个问题是我的后续问题上一个问题 https stackoverflow com questions 56279 export aspx to html关于从 ASPX 页面获取 HTML 我决定尝试使用 webclient 对象但问题是

aspnet html screenscraping

如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳

webcrawler screenscraping monitoring

urllib2 返回浏览器不同的页面？

我正在尝试抓取一个页面我的路由器的管理页面但该设备似乎为 urllib2 提供与我的浏览器不同的页面以前有人发现过这个吗我怎样才能绕过它这是我正在使用的代码 gt gt gt from BeautifulSoup import B

python screenscraping urllib2

使用来自同一 URL 的多个 POST 数据进行抓取

我已经创建了一个蜘蛛它可以收集具有匹配电话号码的公司名称列表然后将其保存到 CSV 文件中然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的

python loops webscraping screenscraping Scrapy

阻止来自我的网站的 cURL 请求

我有一个网站其中包含大量产品和价格数据库我经常被价格困扰我想用一个来防止它

javascript php cURL screenscraping

BeautifulSoup find_all() 不返回任何数据

我对 Python 很陌生我最近的项目是从博彩网站抓取数据我想要抓取的是网页上的赔率信息这是我的代码 from urllib request import urlopen as uReq from bs4 import Beautif

python html webscraping beautifulsoup screenscraping

LoadError: 无法加载此类文件 -- capybara 独立代码

我正在使用 Ruby 和以下教程构建一个简单的后挖矿程序 http ngauthier com 2014 06 scraping the web with ruby html http ngauthier com 2014 06 scrap

ruby webscraping screenscraping html

Python WWW 宏

我需要类似 iMacros for Python 的东西如果有这样的东西那就太好了 browse to www google com type in input search query click button search list

python screenscraping

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

当循环抓取多个网站时我注意到之间的速度存在相当大的差异 sleep 10 response requests get url and response requests get url timeout 10 那是 timeout速度要快得

python timeout screenscraping sleep difference

如何录制屏幕并保存为gif动画？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案有这样的软件吗尝试这个名为 Cropper 的免费工具无限帧将输出设置为动画 Gif http cropper codeplex com htt

screenscraping record animatedgif

使用 Node.js 进行网页抓取时，我可以在页面上运行所有 JavaScript 吗？（即模拟真实的浏览器？）

我正在尝试使用 Node js 进行一些网络抓取使用jsdom 很容易加载 DOM 并将 JavaScript 注入其中我想更进一步运行从网页链接到的所有 JavaScript 然后检查生成的 DOM 包括元素的视觉属性高度宽度等

nodejs screenscraping

大量 iTunes Connect 抓取

我正在研究从 iTunes Connect 网站获取销售报告和其他数据的不同选项由于Apple不提供API 所以我找到的所有解决方案都是基于抓取页面由于我需要我们提供的产品的信息因此我不太乐意将所有 iTunes 帐户提供给第三方服务

screenscraping itunes AppStoreConnect

Nokogiri、open-uri 和 Unicode 字符

我正在使用 Nokogiri 和 open uri 来获取网页上标题标签的内容但在处理重音字符时遇到问题处理这些问题的最佳方法是什么这就是我正在做的 require open uri require nokogiri doc Noko

ruby Unicode screenscraping nokogiri openuri

最好的屏幕抓取语言是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

programminglanguages screenscraping webscraping