如果在 javascript 中返回，如何抓取搜索结果（使用 python）

2024-03-16

我想要抓取的网站使用 JavaScript 填充返回。

我可以简单地以某种方式调用脚本并处理其结果吗？（当然，没有分页。）我不想运行整个过程来抓取生成的格式化 HTML，但原始源是空白的。

看一看：

回报的来源很简单

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/templates/base_template.xsl"?>
<content>
  <head>
    <SCRIPT type="text/javascript" src="/js/searchResultsView.js"></SCRIPT>    
  </head>
    <whitebox>
    <div id = "hits"></div>  
  </whitebox>
</content>

我更喜欢简单的 Python 工具。

我下载了Selenium https://pypi.python.org/pypi/selenium and Chrome驱动程序 https://code.google.com/p/selenium/wiki/ChromeDriver.

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http://kozbeszerzes.ceu.hu/searchresults.xhtml?q=1998&page=0')

for e in driver.find_elements_by_class_name('result'):
    link = e.find_element_by_tag_name('a')
    print(link.text.encode('ascii', 'ignore'), link.get_attribute('href').encode('ascii', 'ignore'))

driver.quit()

如果您使用 Chrome，则可以使用 F12 检查页面属性，这非常有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

python

webscraping

如果在 javascript 中返回，如何抓取搜索结果（使用 python）的相关文章

如何在 d3.js 中填充 svg 圆圈内的图像

这是我在 svg 中填充圆圈的代码 var svgContainer d3 select body append svg attr width 1000 attr height 1000 var circles svgContainer s
PHP：在执行 php 脚本时显示“正在加载”页面

这就是我现在所拥有的我有一个网页当访问该网页时它会通过开放 API 连接到 Surveygizmo com 检索大量数据然后将这些数据返回给我进行处理此过程大约需要 10 12 秒在执行时页面只是处于正在加载状态并且我会
出现意外的关键字参数“timeout”（Python 中的 google-cloud-storage）

使用 google cloud storage 的 Python 项目在本地运行良好但是当它从 App Engine 运行时会显示错误 Traceback most recent call last File opt python3 7
如何在Python中获取绝对文件路径

给定一条路径例如 mydir myfile txt 如何在Python中找到文件的绝对路径例如在 Windows 上我最终可能会得到 C example cwd mydir myfile txt gt gt gt import os
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
从文档字符串生成 sphinx 文档不起作用

我有一个具有以下结构的项目我想保留 my project build here is where sphinx should dump into requirements txt make bat Makefile more config
LINQ SingleOrDefault() 等效项

在 Typescript 中我经常使用这种模式 class Vegetable constructor public id number public name string var vegetable array new Array
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
使用 System.js 导入 Typescript 编译的模块时出错

我最近正在学习使用 system js 导入由 Typescript 编译的模块这些模块之前是为 require js 编译的并且工作正常但是合并到system js时应用时无法导入模块系统生产 js 控制台说 Uncaught i
输入号码时自动格式化 SSN

我有一个文本字段用户输入 SSN 号码输入自身时它应该格式化就像关于文本字段的更改它应该格式化999 999 999以这种方式在显示器本身上 kottenator 的脚本几乎已经完成但它每隔 3 位数字就中断该值而不是 3 位
Scrapy - 不会爬行

我正在尝试运行递归爬行由于我编写的爬行不能正常工作因此我从网络上提取了一个示例并进行了尝试我真的不知道问题出在哪里但是爬行没有显示任何错误谁能帮我这个另外是否有任何逐步调试工具可以帮助理解蜘蛛的爬行流程非常感谢任何与此相关的
如何列出特定服务器的所有成员？

我的代码是 const list client guilds find id 335507048017952771 for user of list users console log user 1 username 这实际上没有任何作用
Python：使用列表创建二叉搜索树

我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中然后使用该列表创建二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率中的每个单词只能包含字母数字或我无法用我的初学者编程知识来做的部分是使用我拥有的
在 Mobile Safari 中点击

敲击
如何在 Pandas 数据框中用 NaN 替换一系列值？

我有一个巨大的数据框我应该如何用 NaN 替换一系列值 200 100 数据框您可以使用pd DataFrame mask https pandas pydata org pandas docs stable generated pan
javascript初学者：在javascript中添加动态样式？ [复制]

这个问题在这里已经有答案了可能的重复如何使用 Javascript 创建标签 https stackoverflow com questions 524696 how to create a style tag with javasc
如何指定一个变量作为类或类实例的成员变量？

在最新的 Python 2 7 x 中给定类定义内的任何成员变量该成员变量是否始终处于类级别因为它是由该类的所有实例共享的单个变量在类的定义中如何指定类定义中的哪些成员变量属于该类因此由该类的所有实例共享以及哪些属于该类的
TypeScript 中 C# 类虚拟成员的等效项

因此在 C 中当我创建模型类和延迟加载内容时我会执行以下操作 public int User ID get set public int Dept ID get set 然后在我的班级稍远一点的地方我像这样弹出我的虚拟 public
使用 Javascript 删除字符串的最后一个字符

我有一个DIV与一些字符如何在每次单击时删除文本中的最后一个字符DIV itself 删除第一个字符 div on click function this text function index text return text repl

随机推荐

使用 Immutable 对普通对象进行深度访问

考虑以下示例 const stickers new OrderedMap set 1 hero batman name Bruce stickers getIn 1 gt hero batman name Bruce stickers ge
REST 服务返回错误的内容类型并解组

我正在使用 RESTEasy 更具体地说是他们框架的客户端我正在调用第三方 Web 服务它会返回一些 JSON 代码但是出于某些充分的原因他们响应中的内容类型是 text javascript 我如何告诉 RESTEasy 它应
带撇号的单词的正则表达式 (Java)

我正在尝试找出正则表达式来匹配仅包含字母和撇号的字符串如果一个字符串包含撇号我只想匹配它两边都有一个字母到目前为止我所拥有的是 a zA Z a zA Z 我想匹配如下字符串 a a aa a a aaa But not bb bb
将 Service Fabric 应用程序发布到 Azure 时操作超时

当我尝试将 Service Fabric 应用程序发布到 Azure 群集时收到以下错误消息 3 gt Copy ServiceFabricApplicationPackage Operation timed out 3 gt At C
Mongodb concat int 和 string

我正在尝试为我的集合中大小为 50 mb 及以上的所有文件投影 FileName 和 FileSize 但我无法连接 FileSize 类型因为它的类型为 Int 我希望投影是 result id ObjectId 5652c399a21
将 Python Keras NLP 模型转换为 Tensorflowjs

我正在尝试了解有关 Tensorflowjs 的更多信息但遗憾的是我无法将 Keras NLP 模型转换为 Tensorflowjs 这就是我想要转换的 from keras models import load model from k
Jqgrid 页脚文本格式问题

在 Jqgrid 中我已将某些列设置为链接对于这些列我还设置了页脚 MAX 但问题是配置的链接也被添加到页脚值中这是意料之外的任何帮助表示赞赏提前致谢我认为问题是how您添加页脚信息如果你使用页脚数据 http www t
无法将文件从 DBFS 复制到 Databricks 中的本地桌面

我想将文件从 dbfs 保存或复制到我的桌面本地我使用此命令但收到错误 dbutils fs cp dbfs username test txt C Users username Desktop Error SyntaxError un
有没有办法通过 Express + Node.js 使用多个视图引擎

Scenario 我使用开发了一些交易页面Node js http nodejs org Express http expressjs com 车把 http handlebarsjs com 作为视图引擎和MongoDB http www
更新对象属性

我正在使用 Struts 2 我的问题是我不想更新所有对象属性因为我得到了一些敏感数据这是我的代码示例 public class person private name private email private password 例如
for 循环的简写是否缓存可迭代对象的引用？

我可能试图变得过于高效但我一直想知道以下两个代码示例中哪一个会执行得更快假设您有一个对包含以下内容的对象的引用ArrayList of Strings并且您想要迭代该列表以下哪项更有效即使效率有限 for String s foo
Objective-C 结构体的默认值以及如何测试

我正在尝试测试属性是否已设置我知道我拥有的对象 CGRect ppGoalFrame LocalPlaySetup localPlaySetup 我可以测试 if localPlaySetup nil 但如果我尝试用 nil 或 NULL
实体框架如何决定是引用现有对象还是创建新对象？

只是出于我的好奇心以及未来的知识 Entity Framework 5 如何决定何时创建新对象与引用现有对象我可能只是做错了什么但似乎时不时地如果我做一些类似的事情 using TestDB db new TestDB var cu
jruby - ruby lambda 语法 -> 不是一个重要的考虑因素吗？

我注意到即使在最新的 1 6 4 jruby 版本中也不支持 Ruby 1 9 中的新 lambda 语法 gt 所以我猜测这种语法在 ruby 社区中并不常用是因为语法是新的还是有其他缺点 x gt y y 1 x call 2
Python - 从不断变化的文本文件中实时更新图形

我有一个线程每 2 秒连续写入一个文本文件 Matplotlib 图实时更新图引用同一文件因此当我启动脚本时我打开一个图表并在线程上启动文件写入过程文件正在更新但我的图表没有更新只有在文件写入完成后文件上的数据才会显示在图
Visual Studio 2017 Update 3 - 找不到指定的 SDK“Microsoft.NET.Sdk.Web”

Error C WebApp WebApp csproj 错误找不到指定的 SDK Microsoft NET Sdk Web C WebApp WebApp csproj 我正在尝试打开 Dotnet 核心项目但收到上述错误我已经安
数据库理论-两个表之间的关系

我有一个包含两个表的数据库让我们称它们为 Foo 和 Bar 每个 foo 可以与任意数量的 bar 相关每个 bar 也可以与任意数量的 foo 相关我希望能够通过一个查询检索与特定 bar 关联的 foo 以及与特定 foo 关联
Android USB 配件多线程

我遇到了由多线程和 Android Open Accessory 引起的问题我需要与 USB 附件通信但我需要从 2 个线程进行通信一个线程生成并发送数据另一个线程读取数据为什么我不使用单线程因为在读取之前可能有 1 次或多次写
使用 Rust 从不同偏移量的文件中读取

我正在开发一个项目该项目涉及从不同偏移量的文件中读取不同的信息目前我正在使用以下代码 SECTORS PER CLUSTER starts at 13 opened file seek SeekFrom Start 13 unwrap
如果在 javascript 中返回，如何抓取搜索结果（使用 python）

我想要抓取的网站使用 JavaScript 填充返回我可以简单地以某种方式调用脚本并处理其结果吗当然没有分页我不想运行整个过程来抓取生成的格式化 HTML 但原始源是空白的看一看回报的来源很简单

如果在 javascript 中返回，如何抓取搜索结果（使用 python）

如果在 javascript 中返回，如何抓取搜索结果（使用 python） 的相关文章

随机推荐

热门标签

如果在 javascript 中返回，如何抓取搜索结果（使用 python）的相关文章