Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
屏幕抓取:正则表达式还是 XQuery 表达式?
我正在回答一些面试的测验问题 问题是关于我如何进行屏幕抓取 也就是说 假设您没有更好的结构化方法来直接查询信息 例如网络服务 则从网页中挑选内容 我的解决方案是使用XQuery表达 该表达式相当长 因为我需要的内容在 HTML 层次结构中相
regex
screenscraping
xquery
无限滚动抓取网站
我写了很多抓取工具 但我不太确定如何处理无限滚动条 如今 大多数网站 例如 Facebook Pinterest 都有无限滚动条 您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站 步骤 1 使用 pi
python
screenscraping
scraper
使用 Ruby 和 Mechanize 登录网站
我需要从网站上抓取数据 但这需要我先登录 我一直在使用 hpricot 成功抓取其他网站 但我对使用 mechanize 还很陌生 而且我真的对如何使用它感到困惑 我看到这个例子经常被引用 require rubygems require
ruby
authentication
screenscraping
mechanize
hpricot
使用 C# 中的 asp.net 表单登录屏幕抓取网站?
是否可以为受表单登录保护的网站编写屏幕抓取程序 当然 我可以访问该网站 但我不知道如何登录该网站并在 C 中保存我的凭据 此外 任何 C 屏幕截图的好例子将不胜感激 这已经完成了吗 这很简单 您需要自定义登录 HttpPost 方法 你可以
c
screenscraping
Selenium:如何使用相同的类名选择第n个按钮
我正在尝试使用 css 类 btnProceed 选择第三个按钮
Java
selenium
screenscraping
使用 BeautifulSoup 和 Requests 抓取多个分页链接
Python 初学者在这里 我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品 但在迭代所有分页链接时遇到
python
forloop
webscraping
beautifulsoup
screenscraping
从登录后的页面获取 HTML
这个问题是我的后续问题上一个问题 https stackoverflow com questions 56279 export aspx to html关于从 ASPX 页面获取 HTML 我决定尝试使用 webclient 对象 但问题是
aspnet
html
screenscraping
如何保护/监控您的网站免遭恶意用户抓取
情况 网站内容受用户名 密码保护 并非全部受控 因为他们可以是试用 测试用户 由于用户名 密码限制 普通搜索引擎无法获取它 恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西 问题是监控此类活动并对其做出响应的最佳
webcrawler
screenscraping
monitoring
urllib2 返回浏览器不同的页面?
我正在尝试抓取一个页面 我的路由器的管理页面 但该设备似乎为 urllib2 提供与我的浏览器不同的页面 以前有人发现过这个吗 我怎样才能绕过它 这是我正在使用的代码 gt gt gt from BeautifulSoup import B
python
screenscraping
urllib2
使用来自同一 URL 的多个 POST 数据进行抓取
我已经创建了一个蜘蛛 它可以收集具有匹配电话号码的公司名称列表 然后将其保存到 CSV 文件中 然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据 我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的
python
loops
webscraping
screenscraping
Scrapy
阻止来自我的网站的 cURL 请求
我有一个网站 其中包含大量产品和价格数据库 我经常被价格困扰 我想用一个来防止它
javascript
php
cURL
screenscraping
BeautifulSoup find_all() 不返回任何数据
我对 Python 很陌生 我最近的项目是从博彩网站抓取数据 我想要抓取的是网页上的赔率信息 这是我的代码 from urllib request import urlopen as uReq from bs4 import Beautif
python
html
webscraping
beautifulsoup
screenscraping
LoadError: 无法加载此类文件 -- capybara 独立代码
我正在使用 Ruby 和以下教程构建一个简单的后挖矿程序 http ngauthier com 2014 06 scraping the web with ruby html http ngauthier com 2014 06 scrap
ruby
webscraping
screenscraping
html
Python WWW 宏
我需要类似 iMacros for Python 的东西 如果有这样的东西那就太好了 browse to www google com type in input search query click button search list
python
screenscraping
Python网络抓取:睡眠和请求之间的区别(页面,超时= x)
当循环抓取多个网站时 我注意到之间的速度存在相当大的差异 sleep 10 response requests get url and response requests get url timeout 10 那是 timeout速度要快得
python
timeout
screenscraping
sleep
difference
如何录制屏幕并保存为gif动画? [关闭]
Closed 这个问题是无关 help closed questions 目前不接受答案 有这样的软件吗 尝试这个名为 Cropper 的免费工具 无限帧 将输出设置为动画 Gif http cropper codeplex com htt
screenscraping
record
animatedgif
使用 Node.js 进行网页抓取时,我可以在页面上运行所有 JavaScript 吗? (即模拟真实的浏览器?)
我正在尝试使用 Node js 进行一些网络抓取 使用jsdom 很容易加载 DOM 并将 JavaScript 注入其中 我想更进一步 运行从网页链接到的所有 JavaScript 然后检查生成的 DOM 包括元素的视觉属性 高度 宽度等
nodejs
screenscraping
大量 iTunes Connect 抓取
我正在研究从 iTunes Connect 网站获取销售报告和其他数据的不同选项 由于Apple不提供API 所以我找到的所有解决方案都是基于抓取页面 由于我需要我们提供的产品的信息 因此我不太乐意将所有 iTunes 帐户提供给第三方服务
screenscraping
itunes
AppStoreConnect
Nokogiri、open-uri 和 Unicode 字符
我正在使用 Nokogiri 和 open uri 来获取网页上标题标签的内容 但在处理重音字符时遇到问题 处理这些问题的最佳方法是什么 这就是我正在做的 require open uri require nokogiri doc Noko
ruby
Unicode
screenscraping
nokogiri
openuri
最好的屏幕抓取语言是什么? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
programminglanguages
screenscraping
webscraping
«
1
2
3
4
5
6
7
»