获取浏览器渲染的 html+javascript

2024-03-31

我需要一个命令行工具（或Javascript/PHP，但我认为命令行是唯一的方法）来渲染并获取URL的渲染内容，但重要的是我需要渲染Javascript而不仅仅是CSS/Html/图像。

例如命令如下：“renderenginehttp://www.google.es http://www.google.esoutputfile.html”和网页内容（解析的 html 和执行的 javascript）保存在 outputfile.html 中。

我需要这个，因为我需要获取像groveshark这样的完整javascript网站的结果，该网站全部使用javascript/ajax加载，而爬虫什么也找不到，只有基本的HTML空模板（因为是在使用ajax/javscript之后加载的）

是否存在支持 Javascript（例如 V8）的 Linux 浏览器引擎，可以输出结果并保存在文件中？

Selenium http://www.seleniumhq.org：非常完整的解决方案，具有多种语言的绑定
木偶师 https://github.com/GoogleChrome/puppeteer：无头 Chrome API，可在 NodeJS 中使用或作为命令行工具
HTtrack https://www.httrack.com：命令行工具
阿帕奇缺口 http://nutch.apache.org & webmagic https://github.com/code4craft/webmagic：开源Java网络爬虫
pholcus https://github.com/henrylee2cn/pholcus：用Go编写的“分布式高并发”网络爬虫
Xvfb http://semicomplete.com/blog/geekery/xvfb-firefox.html实现 X11 显示服务器协议的显示服务器，不显示任何屏幕输出。我已成功地将它与 Travis CI 和 Protractor 一起使用作为示例。选择：XDummy http://xpra.org/trac/wiki/Xdummy
~~PhantomJS http://phantomjs.org (first suggested by nvuono https://stackoverflow.com/users/87464/nvuono) : can export the rendered page as non-HTML (pdf, png...).~~ PhantomJS development is suspended until further notice (more details https://github.com/ariya/phantomjs/issues/15344). Closely related: SlimerJS http://slimerjs.org, CasperJS http://casperjs.org

Python 网络抓取库有很多：

Scrapy http://doc.scrapy.org
pyspider https://github.com/binux/pyspider
ghost.py https://github.com/jeanphix/Ghost.py
splinter https://splinter.readthedocs.io

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

Browser

获取浏览器渲染的 html+javascript 的相关文章

Linux shell 脚本：十六进制数字到二进制字符串

我正在 shell 脚本中寻找一些简单的方法来将十六进制数字转换为 0 和 1 字符的序列 Example 5F gt 01011111 是否有任何命令或简单的方法来完成它或者我应该为其编写一些开关 echo ibase 16 obase
Linux 桌面快捷方式和安装图标

我需要添加什么到我的 spec文件来创建桌面快捷方式并在安装过程中为快捷方式分配一个图标 rpm 如果需要脚本一个示例将非常有帮助您在 Linux 下使用 desktop 文件作为图标图标放置的位置取决于您使用的发行版和桌面环境由于
设置 Apache POI 的路径

我想创建 Excel 文件并使用 java 程序在该文件中写入数据 That is here http www techbrainwave com p 554我在 java 文件所在的位置提取了 Apache POI 并将该路径包含在路径变
没有可用的符号表信息

我正在测试第三方的库它崩溃了当我想查看崩溃的原因时我的 gdb 告诉我没有可用的调试符号 Program received signal SIGSEGV Segmentation fault Switching to Thread 0
在 /dev/input/eventX 中写入事件需要哪些命令？

我正在开发一个android需要将触摸事件发送到 dev input eventX 的应用程序我知道C执行此类操作的代码结构如下 struct input event struct timeval time unsigned short
.NET Core 中的跨平台文件名处理

如何处理文件名System IO以跨平台方式运行类以使其在 Windows 和 Linux 上运行例如我编写的代码在 Windows 上完美运行但它不会在 Ubuntu Linux 上创建文件 var tempFilename Dat
并行运行 make 时出错

考虑以下制作 all a b a echo a exit 1 b echo b start sleep 1 echo b end 当运行它时make j2我收到以下输出 echo a echo b start a exit 1 b star
在 Firefox 中使用 Javascript 检测键盘布局

有没有办法在 Firefox 中检测客户端的键盘布局我知道 Chrome 的答案是肯定的请参阅https developer mozilla org en US docs Web API Navigator keyboard https
Godaddy 托管上的 CakePHP 控制台

我一直在努力让我的 CakePHP 网站在 Godaddy 网格托管帐户上运行我的蛋糕应用程序设置是从帐户的子目录托管的并且可以通过子域访问我必须调整我的 htaccess 文件才能使其正常工作现在我需要让 CakePHP 控制台
Unix 命令列出包含字符串但*不*包含另一个字符串的文件

如何递归查看包含一个字符串且不包含另一个字符串的文件列表另外我的意思是评估文件的文本而不是文件名结论根据评论我最终使用了 find name html exec grep lR base maps xargs grep L ba
使用 find - 删除除任何一个之外的所有文件/目录（在 Linux 中）

如果我们想删除我们使用的所有文件和目录 rm rf 但是如果我希望一次性删除除一个特定文件之外的所有文件和目录怎么办有什么命令可以做到这一点吗 rm rf 可以轻松地一次性删除甚至可以删除我最喜欢的文件目录提前致谢 find ht
Android：ANT 构建失败，并显示 google-play-services-lib：“解析为没有项目的 project.properties 文件的路径”

我正在尝试使用 ANT 构建我的应用程序但在包含 google play services lib 库项目后我惨遭失败 Step 1 我在 project properties 文件中设置了对库项目的引用 android library
跟踪 Linux 程序中活跃使用的内存

我想跟踪各种程序在特定状态下接触了多少内存例如假设我有一个图形程序最小化时它可能会使用更少的内存因为它不会重新绘制窗口这需要读取图像和字体并执行大量库函数这些对象仍然可以在内存中访问但实际上并没有被使用类似的工具top它们
通过特定分隔符删除字符串

我的文件中有几列其中第二列有分隔符我想删除第二列中的第一个第三个和第四个字符串并将第二个字符串留在该列中但我有正常的分隔符空间所以我不知道 input 22 16050075 A G 16050075 A G 22 16050
GLIBCXX_3.4.26 未找到在 BeagleBone 上运行交叉编译的程序

我有以下程序 include
从 csv 文件中删除特定列，保持输出上的相同结构[重复]

这个问题在这里已经有答案了我想删除第 3 列并在输出文件中保留相同的结构输入文件 12 10 10 10 10 1 12 23 1 45 6 7 11 2 33 45 1 2 1 2 34 5 6 I tried awk F 3 fil
如何在 Linux 中编写文本模式 GUI？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案当我编写脚本程序时我经常想弹出一个简单的文本 gui 来提示输入我该怎么做例如来自 Shel
nginx 上的多个网站和可用网站

通过 nginx 的基本安装您的sites available文件夹只有一个文件 default 怎么样sites available文件夹的工作原理以及如何使用它来托管多个单独的网站只是为了添加另一种方法您可以为您托管的每个虚拟
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
gdb查找行号的内存地址

假设我已将 gdb 附加到一个进程并且在其内存布局中有一个文件和行号我想要其内存地址如何获取文件x中第n行的内存地址这是在 Linux x86 上 gdb info line test c 56 Line 56 of test c

随机推荐

具有 CSS 变量的 SVG 半径或位置

是否可以在 SVG 中使用 CSS 变量来操作中的半径或位置等值属性样式一个元素例如在下面的代码中我添加了一个 CSS 颜色变量 dark text clr和一个半径变量 radius 当我使用填充中的颜色 CSS 变量 htt
JavaFX HBox 对齐

我一直在使用 JavaFX 开发一个软件但我遇到了一个愚蠢但令人担忧的问题在代码的某些部分我有一个HBox 并且其中包含三项 image a label and a VBox 问题是我想要image向左对齐即紧挨着左边距window
无法在 mac osx 10.10 上构建 python gevent

概要 pip install gevent不起作用深入挖掘我下载了gevent tar gz并手动运行构建 python setup py build 得到同样的错误 running build running build py run
存储没有大小的字符串文字数组 - 关于数组大小的简单模板

我正在探索存储没有 sidecar 大小信息的文字数组任何类型的方法我已经概述了一些方法但每种方法都有一些挥之不去的问题这是最简单的方法模板超过数组大小请注意这是一个简单的测试用例实际的类可能具有其他成员其他模板参数以及
使用 XadES-BES 算法通过 XMLDSIG 进行 XML 验证

程序使用的某些信息使用 xml 格式的输入文件这些文件具有以下结构
从 Word VBA 编辑工作簿（无论打开还是关闭）

我正在尝试在 Word 中编写宏以便可以将一些信息保存到计算机其他位置的 Excel 文件中为此我写了这个 Dim exlApp As Object Dim exlWbk As Object Set exlApp CreateObjec
如何使 TextView 的内容可水平和垂直滚动

我想滚动在 TextView 中查看的结果这是我的 xml
即使在 java 8 中，SecureRandom 的创建也很慢

我搜索了这个问题我的印象是它在 java 8 中得到了解决但是突然间我开始在基于 ubuntu 14 04 的新虚拟机中遇到这个问题 2015 07 27 14 56 35 324 INFO 11809 localhost star
限制C#程序使用的最大内存

我需要限制 C 程序使用的最大内存即进行安排以便如果其内存消耗超过一定限制它将立即崩溃而不是继续向操作系统请求更多内存代码已经正确且高效但内存消耗在运行时根据输入数据的不同而变化不可预测某些输入数据集仅使用几兆字节后就可以正确
如何让 Eclipse 打印出 unicode 中的奇怪字符？

所以我试图让我的程序输出一个包含名称列表的文本文件有些名字有奇怪的字符例如 str m 我已经从以 UTF 8 编码的网页中获取了这些名称列表或者至少我很确定它确实如此因为页面源代码说元http equiv 内容类型内容 tex
为什么我的虚拟方法没有被覆盖？

class Base public Base cout lt lt base class lt
访问 scriptlet 数组索引中 struts 迭代器的索引值

使用Struts2 我用逗号分隔String我的图像标题在迭代图像以在 JSP 上呈现时我需要将标题与特定图像一起显示但无法获取任何特定标签来分割标题String超过分隔符并访问特定标题我正在尝试下面的代码但不知道使用什么来代替某
如何使用 Polygon() 在概率密度曲线下方着色

我无法获取polygon 遮荫below分布一直到 x 轴它似乎在指数分布之上y x线这是我到目前为止所拥有的 x lt seq 0 50 0 01 y lt dexp seq 0 50 0 01 rate 0 11 plot x y
Python 中通过切片列表赋值的紧凑方法

我有以下清单 bar a b c x y z 我想要做的是分配第一个第四个和第五个值bar into v1 v2 v3 有没有比这更紧凑的方法 v1 v2 v3 bar 0 bar 3 bar 4 因为在 Perl 中你可以这样做 my
在 OpenGL ES 1.1 中绘制一个切出扇形的圆

我正在尝试使用 OpenGL ES 1 1 绘制以下形状好吧我被困住了我真的不知道该怎么办我的游戏目前使用 Android 的 Canvas API 它不是硬件加速的所以我用 OpenGL ES 重写它 Canvas 类有一个名为
MySql如何在Between子句中使用DATE_SUB

我在使用 DATE SUB 作为日期时间字段时遇到问题我想使用这样的查询 SELECT FROM SellBySalesman WHERE userid 37 and sellingDate BETWEEN CURDATE AND DAT
如何在C++中获取以毫秒为单位的时间[重复]

这个问题在这里已经有答案了在 Java 中你可以这样做 long now new Date getTime 我怎样才能用 C 做同样的事情呢因为 C 0x 太棒了 namespace sc std chrono auto time sc
多处理.RawArray 操作

我读到了RawArray可以在进程之间共享而无需复制并且想了解它在Python中是如何实现的我看到在共享ctypes py https github com python cpython blob master Lib multipro
错误：必须指定主要资源（JAR 或 Python 或 R 文件） - IPython 笔记本

我尝试在 IPython Notebook 中运行 Apache Spark 请遵循此说明以及评论中的所有建议 link http ramhiser com 2015 02 01 configuring ipython notebook
获取浏览器渲染的 html+javascript

我需要一个命令行工具或Javascript PHP 但我认为命令行是唯一的方法来渲染并获取URL的渲染内容但重要的是我需要渲染Javascript而不仅仅是CSS Html 图像例如命令如下 renderenginehttp www

获取浏览器渲染的 html+javascript

获取浏览器渲染的 html+javascript 的相关文章

随机推荐

热门标签