screenscraping

如何获取网页内容并将其保存到字符串变量中

如何使用 ASP NET 获取网页内容我需要编写一个程序来获取网页的 HTML 并将其存储到字符串变量中您可以使用网络客户端 Using System Net using WebClient client new WebClient s

c aspnet screenscraping

Python urllib2.open 连接被对等错误重置

我正在尝试使用 python 抓取页面问题是我不断收到 Errno54 连接被同行重置当我运行此代码时出现错误 urllib2 urlopen http www bkstr com webapp wcs stores servlet

python connection screenscraping reset

Scrapy - 在请求中更改用户代理的正确方法

我通过覆盖 RetryMiddleware 在 Scrapy 中创建了一个自定义中间件该中间件在重试之前会更改代理和用户代理看起来像这样 class CustomRetryMiddleware RetryMiddleware def r

python Scrapy screenscraping userAgent

Python lxml.html XPath“属性不等于”运算符未按预期工作

我正在尝试运行以下脚本 python from urllib import urlopen urllib request for python3 from lxml import html url http mpk lodz pl rozk

python html xpath screenscraping lxml

如何在bash中从html中提取td？

我正在从 geonames 查询伦敦邮政编码数据我想将输出转换为仅包含邮政编码标识符 Bethnal Green Islington 等的列表在 bash 中仅提取名称的最佳方法是什么我不确定你是不是这个意思 n分隔列表或用括号括

html regex bash shell screenscraping

程序化表单提交

我想抓取网页的内容内容是在该网站上填写并提交表格后生成的我已经阅读了如何抓取最终结果内容网页但如何以编程方式提交表单我正在使用 python 并读到我可能需要获取带有表单的原始网页解析它获取表单参数然后执行 X 有人能指出我

python Forms screenscraping submit

在 Scrapy 蜘蛛中动态添加 allowed_domains

我有一个蜘蛛它以一小部分列表开头allowed domains在蜘蛛爬行的开始当蜘蛛抓取从解析器内继续时我需要动态地将更多域添加到此白名单中但由于后续请求仍在过滤中因此以下代码段无法完成此操作还有更新的吗allowed doma

python screenscraping Scrapy

网页抓取视频

我正在尝试通过下载 Bob s Burgers 的电视剧集来进行概念验证https www watchcartoononline com bobs burgers season 9 episode 3 tweentrepreneurs 我不

python video screenscraping

Python：将文本加载为Python对象[重复]

这个问题在这里已经有答案了我有这样的文本要加载 https sites google com site iminside1 paste我更喜欢从中创建一个 python 字典但任何对象都可以我试过pickle json and eva

python Parsing screenscraping

将 ASPX 导出为 HTML

我们正在构建一个 CMS 该网站将由用户在 aspx 页面中构建和管理但我们希望创建一个 HTML 的静态网站我们现在的做法是使用我找到的代码here重载 Aspx 页面中的 Render 方法并将 HTML 字符串写入文件这对于单个

aspnet html screenscraping

是否可以在服务器端运行 jQuery？

我正在研究网页抓取已经实现了AJAX分页由于网站是用asp开发的即扩展名为 aspx的页面我尝试提交分页表单以从首页以外的其他页面获取数据但没有取得任何成功请看这里我用过的代码从所有实现 AJAX 分页的 ASP NET 页面中

php javascript jQuery webscraping screenscraping

单击网站上的按钮然后抓取网页

我有一个网站我想单击一个按钮然后使用 python 抓取该网站按钮之间的 html 代码是 span class exchange input nav link Testing span 这可能吗我可以从页面中抓取我需要的所有数据

python onclick click webscraping screenscraping

嵌入网站的一部分

假设我想将我最喜欢的网络漫画之一的最新连环漫画嵌入到我的网站中作为对其的一种推广网络漫画的 div 内有带有 id 的条带所以我想我可以将 div 嵌入到我的网站中但我找不到任何代码示例来说明如何做到这一点它们都展示了如何嵌入 fl

html EMBED screenscraping

如何以编程方式保存网页？

我想以编程方式保存网页我的意思不仅仅是保存 HTML 我还希望自动存储所有关联的文件图像 CSS 文件可能嵌入的 SWF 等并希望重写本地浏览的链接预期用途是个人书签应用程序其中缓存链接内容以防原始副本被删除看一眼wget

caching webapplications screenscraping htmlcontentextraction

使用 jquery 和 ajax 进行网站抓取

我希望能够操作给定 url 的 html 类似 html 抓取之类的东西我知道这可以使用curl或一些抓取库来完成但是我想知道是否可以使用jquery使用ajax向url发出get请求并检索url的html 并在html 返回谢谢我

javascript jQuery AJAX screenscraping

如何使用 Phantomjs 向下滚动加载动态内容

我试图从当用户向下滚动到底部无限滚动时动态生成内容的页面中抓取链接我尝试过使用 Phantomjs 做不同的事情但无法收集首页之外的链接假设加载内容的底部元素有类 has more items 它一直可用直到滚动时加载最终内容

javascript DOM webscraping screenscraping PhantomJS

从 HTML 页面源下载图像文件

我正在编写一个抓取工具用于从 HTML 页面下载所有图像文件并将它们保存到特定文件夹中所有图像都是 HTML 页面的一部分下面是一些代码用于从提供的 URL 下载所有图像并将它们保存在指定的输出文件夹中您可以根据自己的需要对其进

python screenscraping

如何使用 lxml、XPath 和 Python 从网页中提取链接？

我有这个 xpath 查询 html body tbody tr td a title href 它提取所有带有标题属性的链接并给出href in FireFox 的 Xpath 检查器插件但是我似乎无法将它与lxml from lx

python screenscraping hyperlink lxml extract

Python 3.x 的机械化

有什么方法可以将 Mechanize 与 Python 3 x 一起使用吗或者有什么可以在 Python 3 x 中工作的替代品吗我已经搜索了几个小时但没有找到任何东西我正在寻找如何使用 Python 登录该网站的方法但该网站使用

python authentication screenscraping screen mechanize

抓取 javascript 网站

我能够从基本 html 页面中抓取数据但在抓取下面的网站时遇到问题看起来数据是通过 JavaScript 呈现的我不知道如何解决这个问题如果可能的话我更喜欢使用 R 来抓取但也可以使用 Python 有什么想法建议吗编辑我

javascript xml r webscraping screenscraping