Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何获取网页内容并将其保存到字符串变量中
如何使用 ASP NET 获取网页内容 我需要编写一个程序来获取网页的 HTML 并将其存储到字符串变量中 您可以使用网络客户端 Using System Net using WebClient client new WebClient s
c
aspnet
screenscraping
Python urllib2.open 连接被对等错误重置
我正在尝试使用 python 抓取页面 问题是 我不断收到 Errno54 连接被同行重置 当我运行此代码时出现错误 urllib2 urlopen http www bkstr com webapp wcs stores servlet
python
connection
screenscraping
reset
Scrapy - 在请求中更改用户代理的正确方法
我通过覆盖 RetryMiddleware 在 Scrapy 中创建了一个自定义中间件 该中间件在重试之前会更改代理和用户代理 看起来像这样 class CustomRetryMiddleware RetryMiddleware def r
python
Scrapy
screenscraping
userAgent
Python lxml.html XPath“属性不等于”运算符未按预期工作
我正在尝试运行以下脚本 python from urllib import urlopen urllib request for python3 from lxml import html url http mpk lodz pl rozk
python
html
xpath
screenscraping
lxml
如何在bash中从html中提取td?
我正在从 geonames 查询伦敦邮政编码数据 我想将输出转换为仅包含邮政编码标识符 Bethnal Green Islington 等 的列表 在 bash 中仅提取名称的最佳方法是什么 我不确定你是不是这个意思 n分隔列表 或用括号括
html
regex
bash
shell
screenscraping
程序化表单提交
我想抓取网页的内容 内容是在该网站上填写并提交表格后生成的 我已经阅读了如何抓取最终结果内容 网页 但如何以编程方式提交表单 我正在使用 python 并读到我可能需要获取带有表单的原始网页 解析它 获取表单参数 然后执行 X 有人能指出我
python
Forms
screenscraping
submit
在 Scrapy 蜘蛛中动态添加 allowed_domains
我有一个蜘蛛 它以一小部分列表开头allowed domains在蜘蛛爬行的开始 当蜘蛛抓取从解析器内继续时 我需要动态地将更多域添加到此白名单中 但由于后续请求仍在过滤中 因此以下代码段无法完成此操作 还有更新的吗allowed doma
python
screenscraping
Scrapy
网页抓取视频
我正在尝试通过下载 Bob s Burgers 的电视剧集来进行概念验证https www watchcartoononline com bobs burgers season 9 episode 3 tweentrepreneurs 我不
python
video
screenscraping
Python:将文本加载为Python对象[重复]
这个问题在这里已经有答案了 我有这样的文本要加载 https sites google com site iminside1 paste我更喜欢从中创建一个 python 字典 但任何对象都可以 我试过pickle json and eva
python
Parsing
screenscraping
将 ASPX 导出为 HTML
我们正在构建一个 CMS 该网站将由用户在 aspx 页面中构建和管理 但我们希望创建一个 HTML 的静态网站 我们现在的做法是使用我找到的代码here重载 Aspx 页面中的 Render 方法并将 HTML 字符串写入文件 这对于单个
aspnet
html
screenscraping
是否可以在服务器端运行 jQuery?
我正在研究网页抓取 已经实现了AJAX分页 由于网站是用asp开发的 即扩展名为 aspx的页面 我尝试提交分页表单以从首页以外的其他页面获取数据 但没有取得任何成功 请看这里我用过的代码从所有实现 AJAX 分页的 ASP NET 页面中
php
javascript
jQuery
webscraping
screenscraping
单击网站上的按钮然后抓取网页
我有一个网站 我想单击一个按钮 然后使用 python 抓取该网站 按钮之间的 html 代码是 span class exchange input nav link Testing span 这可能吗 我可以从页面中抓取我需要的所有数据
python
onclick
click
webscraping
screenscraping
嵌入网站的一部分
假设我想将我最喜欢的网络漫画之一的最新连环漫画嵌入到我的网站中作为对其的一种推广 网络漫画的 div 内有带有 id 的条带 所以我想我可以将 div 嵌入到我的网站中 但我找不到任何代码示例来说明如何做到这一点 它们都展示了如何嵌入 fl
html
EMBED
screenscraping
如何以编程方式保存网页?
我想以编程方式保存网页 我的意思不仅仅是保存 HTML 我还希望自动存储所有关联的文件 图像 CSS 文件 可能嵌入的 SWF 等 并希望重写本地浏览的链接 预期用途是个人书签应用程序 其中缓存链接内容 以防原始副本被删除 看一眼wget
caching
webapplications
screenscraping
htmlcontentextraction
使用 jquery 和 ajax 进行网站抓取
我希望能够操作给定 url 的 html 类似 html 抓取之类的东西 我知道这可以使用curl或一些抓取库来完成 但是我想知道是否可以使用jquery使用ajax向url发出get请求并检索url的html 并在html 返回 谢谢 我
javascript
jQuery
AJAX
screenscraping
如何使用 Phantomjs 向下滚动加载动态内容
我试图从当用户向下滚动到底部 无限滚动 时动态生成内容的页面中抓取链接 我尝试过使用 Phantomjs 做不同的事情 但无法收集首页之外的链接 假设加载内容的底部元素有类 has more items 它一直可用 直到滚动时加载最终内容
javascript
DOM
webscraping
screenscraping
PhantomJS
从 HTML 页面源下载图像文件
我正在编写一个抓取工具 用于从 HTML 页面下载所有图像文件并将它们保存到特定文件夹中 所有图像都是 HTML 页面的一部分 下面是一些代码 用于从提供的 URL 下载所有图像 并将它们保存在指定的输出文件夹中 您可以根据自己的需要对其进
python
screenscraping
如何使用 lxml、XPath 和 Python 从网页中提取链接?
我有这个 xpath 查询 html body tbody tr td a title href 它提取所有带有标题属性的链接 并给出href in FireFox 的 Xpath 检查器插件 但是 我似乎无法将它与lxml from lx
python
screenscraping
hyperlink
lxml
extract
Python 3.x 的机械化
有什么方法可以将 Mechanize 与 Python 3 x 一起使用吗 或者有什么可以在 Python 3 x 中工作的替代品吗 我已经搜索了几个小时 但没有找到任何东西 我正在寻找如何使用 Python 登录该网站的方法 但该网站使用
python
authentication
screenscraping
screen
mechanize
抓取 javascript 网站
我能够从基本 html 页面中抓取数据 但在抓取下面的网站时遇到问题 看起来数据是通过 JavaScript 呈现的 我不知道如何解决这个问题 如果可能的话 我更喜欢使用 R 来抓取 但也可以使用 Python 有什么想法 建议吗 编辑 我
javascript
xml
r
webscraping
screenscraping
«
1
2
3
4
5
6