使用 Scala 进行网页抓取 [关闭]

2024-06-19

只是想知道是否有人知道一个利用 Scala 简洁语法的网络抓取库。到目前为止,我已经找到了Chafe https://github.com/ofrasergreen/chafed,但这似乎记录和维护都很差。我想知道是否有人使用 Scala 进行过抓取并提供建议。 (我正在尝试集成到现有的 Scala 框架中,而不是使用用 Python 等语言编写的爬虫。)


首先,JVM 中有大量的 HTML 抓取库,您需要做的就是为其中之一拉皮条(为我的图书馆模式拉皮条) http://www.decodified.com/scala/2010/12/02/the-quickpimp-pattern.

我用过的四种是:

  • HtmlUnit - 将模拟浏览器甚至运行 Javascript
  • Jericho - 保留格式,如果您想编辑抓取的 HTML,这是理想的选择
  • NekoHtml
  • JSoup -- 不适用于 Scala https://issues.scala-lang.org/browse/SI-3809罢工>。可能有用 https://stackoverflow.com/questions/14745634/web-scraping-with-scala/14759873#comment20659065_14759873

我使用过 Selenium,但从未用于刮擦。Scala 有一个 Selenium 包装器 http://www.scalatest.org/user_guide/using_selenium.

我建议使用现有的 Java 库,而不是一些半成品的 Scala 库。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Scala 进行网页抓取 [关闭] 的相关文章

随机推荐

  • 使用 include 的 Javascript 过滤对象

    我正在尝试使用 javascript 中的 filter 函数来过滤对象 我想过滤这样的数组 1615 1616 它在代码中被引用为 value verdier 数据集是一个大型数组 包含从 JSON 字符串解析的具有多个属性的对象 数组中
  • 将箱线图添加到Python中的其他图表中

    这两个图的每个点的 x 轴值完全相同 是否可以在第一个图的顶部显示盒须 我试过这个 fig1 plt figure ax fig1 add subplot 211 ax set xscale log ax plot x7 y7 c ax p
  • 正则表达式将从文本文件中提取句子

    我需要一个正则表达式来从文本文件中提取句子 示例文本 以 2004 年底发生的亚洲海啸灾难为例 对 Google 新闻 http news google com 的查询在一个月内 1 月 17 日 返回了超过 80 000 篇有关该事件的在
  • 如何发布数组多维角度js

    我在 angularjs 中有一个数组 示例如下 scope order qty 20 scope order adress Bekasi scope order city Bekasi 这个数组可以用这个代码发布 http method
  • x86 asm 的 NASM 语法中的括号是什么意思?

    给出以下代码 L1 db word 0 mov al L1 mov eax L1 括号里是什么意思 L1 代表 这个问题专门针对 NASM Intel 语法汇编的另一个主要风格是 MASM 风格 当不涉及寄存器时 括号的工作方式有所不同 S
  • artisan 明确编译返回错误代码 255

    跑步时composer install在我的 laravel 项目中 我收到错误 脚本 php artisan 清晰编译处理返回的 post install cmd 事件 错误代码为 255 关于可能出现的问题有什么建议吗 请注意 comp
  • 如何在不下载内容的情况下执行 GET 请求?

    我正在开发一个链接检查器 一般来说我可以执行HEAD请求 但是有些网站似乎禁用了这个动词 所以在失败时我还需要执行GET请求 仔细检查链接是否确实已失效 我使用以下代码作为我的链接测试器 public class ValidateResul
  • .net-core:ILDASM / ILASM 的等效项

    net core 是否有相当于 ILDASM ILASM 的功能 具体来说 我正在寻找在 Linux 上运行的东西 因此为什么是 net core ildasm 和 ilasm 工具都是使用此存储库中的 CoreCLR 构建的 https
  • 如何在缩进层次结构中找到父级?

    我目前有一张 Excel 工作表 其中包含缩进的项目层次结构 如下所示 每个项目都缩进 每个缩进四个空格 以显示它如何适应整体层次结构 我已经能够创建一个 级别 列 将缩进级别转换为数字 Item Level Parent P1 1 N A
  • Azure Functions 无法与队列触发器一起使用

    预先感谢任何可以提供帮助的人 我正在使用队列触发器在 Azure 中创建以下函数 FunctionName SubmitJob public static async Task Run ServiceBusTrigger jobs Conn
  • Bundle exec rspec VS rspec 规范

    红宝石 1 9 2 导轨 3 1 这是问题所在bundle exec rspec spec 不起作用 但是rspec spec 运行正常 当我跑步时c RailsInstaller work apptwit gt bundle exec r
  • 在 main 之前执行任何函数[重复]

    这个问题在这里已经有答案了 我想在 main 之前执行用户定义函数 是否可以先执行一个函数main in c sum int a int b return a b g sum sum 1 5 main sum 5 6 printf d g
  • 将变量设置为函数调用以在 PHP 中的 if 语句中使用

    好的 我正在做一些 Wordpress 编辑 并且编写了一个 if 语句 正如您所看到的 这使用函数调用作为变量 这是因为函数调用会调用当前页面的名称 这很好 然而 当我这样做时 它也往往会与页面上的标题相呼应 这是有道理的 我可能正在尝试
  • 如何使用“index_mut”来获取可变引用?

    即使当我实施IndexMut对于我的结构 我无法获得对结构内部向量元素的可变引用 use std ops Index IndexMut struct Test
  • 模板策略模式

    我想分解一个类 使其与执行某些任务的逻辑分离 以便用户可以按照自己的意愿编写新策略 而不会干扰中心模型 因此 我想使用模板化策略类 但不必让策略的用户被模板化 class Model boost shared ptr lt Strategy
  • 如何覆盖flask-security的登录?

    我想在用户登录时进行一些自定义 问题是该项目正在使用flask security 它隐式处理用户登录 我想在用户登录时检查数据库中用户的一些记录 如何覆盖烧瓶安全中的 登录 功能 I saw a 类似的帖子 https stackoverf
  • 从子域重定向到域+ .htaccess

    我可以为多个域配置 RewriteRule 吗 就像我的要求是 我当前的域名 www maindomain com 假设我有三个域和子域 子域网址是 example1 maindomain com example2 maindomain c
  • 如何在 Moderngl EGL 后端添加深度缓冲区?

    此代码渲染一个带有抗锯齿功能的彩色三角形 samples 8 当深度缓冲线depth attachment ctx depth texture 512 512 samples 8 被评论 但是当我添加深度缓冲区时 它会在绑定处返回 GL 错
  • 使用图表时避免使用“激活”和“选择”(Excel)

    我知道使用Activate and Select在 Excel 中 VBA 不是最佳实践 我看过有关如何在处理范围时避免它们的参考资料 例如 LINK https stackoverflow com questions 10714251 e
  • 使用 Scala 进行网页抓取 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi