如何解析包含 javascript 代码的 html

2023-12-31

如何解析大量使用 javascript 的 html 文档？我知道python中有一些库可以解析静态xml/html文件，我基本上正在寻找一个程序或库（甚至是firefox插件）来读取html+javascript，执行javascript位并输出没有javascript的html代码因此，如果在浏览器中显示，它看起来会相同。

举个简单的例子

<a href="javascript:web_link(34, true);">link</a>

应替换为 javascript 函数返回的适当值，例如

<a href="http://www.example.com">link</a>

一个更复杂的例子是保存的 facebook html 页面，其中散布着大量的 javascript 代码。

可能与如何使用 Node.js“执行”HTML+Javascript 页面 https://stackoverflow.com/questions/5222469/how-to-execute-htmljavascript-page-with-node-js但我真的需要 Node.js 和 JSDOM 吗？也稍微相关的是用于渲染 HTML 和 javascript 的 Python 库 https://stackoverflow.com/questions/126131/python-library-for-rendering-html-and-javascript但我对仅渲染纯 html 输出不感兴趣。

您可以使用Selenium http://seleniumhq.org/使用 python 详细说明here http://agiletesting.blogspot.com/2005/03/web-app-testing-with-python-part-2.html

Example:

import xmlrpclib

# Make an object to represent the XML-RPC server.
server_url = "http://localhost:8080/selenium-driver/RPC2"
app = xmlrpclib.ServerProxy(server_url)

# Bump timeout a little higher than the default 5 seconds
app.setTimeout(15)

import os
os.system('start run_firefox.bat')

print app.open('http://localhost:8080/AUT/000000A/http/www.amazon.com/')
print app.verifyTitle('Amazon.com: Welcome')
print app.verifySelected('url', 'All Products')
print app.select('url', 'Books')
print app.verifySelected('url', 'Books')
print app.verifyValue('field-keywords', '')
print app.type('field-keywords', 'Python Cookbook')
print app.clickAndWait('Go')
print app.verifyTitle('Amazon.com: Books Search Results: Python Cookbook')
print app.verifyTextPresent('Python Cookbook', '')
print app.verifyTextPresent('Alex Martellibot, David Ascher', '')
print app.testComplete()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何解析包含 javascript 代码的 html 的相关文章

如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
是否有任何非轮询方式来检测 DOM 元素的大小或位置何时发生变化？

很长一段时间以来我一直在寻找一种方法来检测 DOM 元素的大小或位置何时发生变化这可能是因为窗口调整了大小或者因为向该元素添加了新的子元素或者因为在该元素周围添加了新元素或者因为 CSS 规则已更改或者因为用户更改了浏览器的字体
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 JS 合并具有相同值的相邻 HTML 表格单元格

我已经为此苦苦挣扎了一段时间我有一个根据一些 JSON 数据自动生成的表该数据可能会有所不同我想合并第一列中具有相同值的相邻单元格例如此表中的鱼和鸟 table tr td fish td td salmon td tr tr
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
将数组排序为第一个最小值、第一个最大值、第二个最小值、第二个最大值等

编写一个JS程序返回一个数组其中第一个元素是第一个最小值第二个元素是第一个最大值依此类推该程序包含一个函数该函数接受一个参数一个数组该函数根据要求返回数组输入示例 array 2 4 7 1 3 8 9 预期输出 1 9
将 javascript 整数转换为字节数组并返回

function intFromBytes x var val 0 for var i 0 i lt x length i val x i if i lt x length 1 val val lt lt 8 return val func
Chartjs刻度标签位置

尝试让 Y 轴刻度标签看起来像image https i stack imgur com XgoxX png 位于秤顶部且不旋转缩放选项当前如下所示 scales yAxes id temp scaleLabel display true
类型“typeof import("/home/kartik/Desktop/Ecommerce/ecommerce/node_modules/firebase/index")”上不存在属性“auth”。 TS(2339)

我是 FireBase 的初学者我正在尝试使用 Angular 通过 FireBase 实现 Google 登录我在 auth 时收到上述错误我特此附上login component ts和package json package l
为什么“tbody”不设置表格的背景颜色？

我在用 tbody 作为 CSS 选择器来设置background color在一个表中我这样做是因为我有多个 tbody 表内的部分它们具有不同的背景颜色我的问题是当使用border radius在细胞上细胞不尊重backgro
如何在jquery中获取保存时间和当前时间的差异？

我想在 javascript 或 jquery 中获取保存时间和当前时间之间的时差我节省的时间看起来像Sun Oct 24 15 55 56 GMT 05 30 2010 java中的日期格式代码如下 String newDate 201
如果数字小于 10，则显示前导零 [重复]

这个问题在这里已经有答案了可能的重复 JavaScript 相当于 printf string format https stackoverflow com questions 610406 javascript equivalent t
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
如何在 gulp.src 中使用基本正则表达式？

我正在尝试选择两个文件gulp src highcharts js and highcharts src js 当然我知道我可以使用数组表达式显式添加这两个表达式但出于学习目的我尝试为它们编写一个表达式我读过可以使用简单的正则表达式
KeyboardAvoidingView - 隐藏键盘时重置高度

我正在使用 React NativeKeyboardAvoidingView设置我的高度View当显示键盘时但是当我关闭应用程序中的键盘时视图的高度不会变回原来的值
用于 C# XNA 的 Javascript（或类似）游戏脚本

最近我准备用 XNA C 开发另一个游戏上次我在 XNA C 中开发游戏时遇到了必须向游戏中添加地图和可自定义数据的问题每次我想添加新内容或更改游戏角色的某些值或其他内容时我都必须重建整个游戏或其他内容这可能需要相当长的时间有没
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

如何使用 Properties.Resources 中的图像从 WPF 中的代码隐藏动态更改图像源？

我有一个 WPF 应用程序需要向用户提供有关内部状态的反馈该设计有三个图像分别称为红色黄色和绿色根据状态一次将显示其中一张图像以下是要点这三个图像位于代码隐藏的 Properties Resources 中一次仅显示一张图
Xlib：关闭窗口总是导致致命的 IO 错误？

我不确定为什么会发生这种情况但是当我尝试使用 X 按钮关闭时我使用 C 中的 Xlib 创建的任何窗口都会向终端输出错误我可以通过编程方式关闭它不会出现错误只需按 X 按钮即可错误如下 XIO fatal IO error 11
Enter 键在 ASP.NET 多行文本框控件中插入换行符

我继承了一些 C asp net 代码其中有一个文本框我想将其设置为多行我通过添加 textmode multiline 来做到这一点但是当我尝试插入换行符时回车键会提交表单 P 我用谷歌搜索了一下似乎默认行为应该是输入或控制
在组件测试规范中模拟BehaviorSubject

我正在尝试模拟组件测试中的服务依赖项该服务有一个我正在尝试模拟的行为主题属性我的服务如下 export class DatePickerService public date moment Moment public selectedD
Elm：将包含单个元素的 JSON 数组解码为字符串

看过类似的东西但找不到确切的问题我有一个从服务器端验证返回的 JSON 如下所示 field field name messages message message 我想做的是将其解码为 elm 记录例如 field String m
从两个枚举类创建复合类型，为 STL 映射做好准备

我想创建一个由两种类型组成的复合类型enum classes enum class Color RED GREEN BLUE enum class Shape SQUARE CIRCLE TRIANGLE class Object Colo
requirejs 中的把手加载不成功

paths jquery libs jquery jquery min underscore libs underscore underscore min backbone libs backbone backbone optamd3 mi
编写泛型类来处理内置类型

也许不太实用但仍然很有趣有一些关于矩阵乘法的抽象问题我快速实现了一个整数矩阵然后测试了我的假设在这里我注意到如果我偶尔想将它与十进制或双精度一起使用那么仅 int 矩阵不好当然我could尝试将所有内容都转换为双倍但这不
pytest配置问题（从nosetests（71秒）到pytest（1536秒）的过渡）

问题 pytest 由策略决定运行相同的测试套件 585 个测试需要 1536 秒nosetest 运行时间为 71 秒 The pytest ini文件是 pytest python files tests py tests py n
C# 捕获异常

我应该在 try catch 中使用哪个异常来找出用户何时以错误的格式输入了数据 Example try string s textBox1 Text User inputs an int Input error MessageBox Sh
如何获取wiki模板的内容？

有谁知道如何访问页面内的模板主体我熟悉返回所有现有模板列表的 API 但是我如何才能访问模板的主体呢有这方面的API吗目前我只看到一种可能的方法手动解析它我错了吗您可以使用扩展模板 http www mediawiki org
Flask-restx 请求解析器返回 400 Bad Request

我在用着flask restx在我的 Flask 应用程序中但每次我使用 swagger ui 发出请求时它都会返回 400 http 127 0 0 1 5000 api user register password test ema
如何打印方法的返回值

我正在研究一种随机数方法来从数组中选择随机元素但是我不知道如何打印返回值getRandom 方法这是代码 import java util Random public class CardDeck public static void
“MonadIO m”和“MonadBaseControl IO m”之间有什么区别吗？

功能运行TCP客户端 http hackage haskell org package network conduit 1 0 0 docs Data Conduit Network html v runTCPClient from 网络管
使用“Convert.ChangeType()”将 System.String 一般转换为任何复杂类型

我尝试将用户输入一般转换为简单或复杂类型 class Program static void Main string args Console WriteLine Welcome please provide the following i
如何在 SQL 2005 上使用 FOR XML PATH 时保留与号 (&)

有什么技巧可以防止 SQL Server 将等字符实体化吗我正在尝试在 XML 文件中输出 URL 但 SQL 希望将任何替换为 amp 进行以下查询 SELECT http foosite com RTRIM li imageSto
如何将多个属性绑定到 Angular 5 组件？

我有一个组件toolbar与模板 div class toolbar item a href item label a div 我想绑定一个数组item options to an A元素如何使用 Angular 5 做到这一点 cons
从 IJulia 输出中删除科学记数法？

How do I remove scientific notation from Jupyter IJulia outputs and only get the raw floating point number 您可以使用 printf宏
上下文相关的标记化是否需要词汇语法中的多个目标符号？

根据ECMAScript 规范 https tc39 es ecma262 sec ecmascript language lexical grammar 词法输入的识别有几种情况元素对句法语法上下文敏感即消耗输入元素这需要多个目标
如何解析包含 javascript 代码的 html

如何解析大量使用 javascript 的 html 文档我知道python中有一些库可以解析静态xml html文件我基本上正在寻找一个程序或库甚至是firefox插件来读取html javascript 执行javascript

如何解析包含 javascript 代码的 html

如何解析包含 javascript 代码的 html 的相关文章

随机推荐

热门标签