Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

2024-04-18

假设我正在尝试抓取一个网站并跳过一个像这样结束的页面：

我目前正在 Ruby 中使用 Anemone gem 来构建爬虫。我正在使用skip_links_like方法，但我的模式似乎永远不匹配。我试图使其尽可能通用，因此它不依赖于子页面，而只是=2105925（数字）。

我努力了/=\d+$/ and /\?.*\d+$/但它似乎不起作用。

这类似于在 Anemone 中抓取扩展名为 pdf、zip 的网页时跳过 https://stackoverflow.com/questions/8341203/skipping-web-pages-with-extension-pdf-zip-from-crawling-in-anemone/8349005#8349005但我无法用数字而不是扩展名来使它有价值。

另外，测试http://regexpal.com/ http://regexpal.com/与图案=\d+$将成功匹配http://misc.com/test/index.php?page=news&subpage=20060118

EDIT:

这是我的全部代码。我想知道是否有人能准确地看出出了什么问题。

require 'anemone'
...
Anemone.crawl(url, :depth_limit => 3, :obey_robots_txt => true) do |anemone|
  anemone.skip_links_like /\?.*\d+$/
  anemone.on_every_page do |page|
    pURL = page.url.to_s
    puts "Now checking: " + pURL
    bestGuess[pURL] = match_freq( manList, page.doc.inner_text )
    puts "Successfully checked"
  end
end

我的输出是这样的：

...
Now checking: http://MISC.com/about_us/index.php?page=press_and_news&subpage=20110711
Successfully checked
...

  Anemone.crawl(url, :depth_limit => 3, :obey_robots_txt => true, :skip_query_strings => true) do |anemone|
   anemone.on_every_page do |page|
     pURL = page.url.to_s
     puts "Now checking: " + pURL
      bestGuess[pURL] = match_freq( manList, page.doc.inner_text )
     puts "Successfully checked"
   end
 end

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL 的相关文章

如何通过 ajax 加载页面后显示 Twitter / Facebook / Google+ 按钮？

我有一个 Rails 3 1 应用程序我希望允许用户通过 Twitter Google 和 Facebook HTML5 版本的 Like 按钮共享项目我让它在项目的显示页面上工作得很好即仅显示该项目但我在通过 Ajax 加载列
如何使用正则表达式在 Java 中检查确切的电话号码

你好我是正则表达式的新手我不知道我在做什么这就是我寻求帮助的原因我有以下电话号码 359878123456 我需要检查该电话号码是否符合条件 359 是准确的扩展名第二个 2 个数字是操作员号码和以下 3 个数字之一 87 88
如何通过保持目录结构完整来同步路径中匹配模式的文件？

我想将所有文件从服务器 A 复制到服务器 B 这些文件在不同级别的文件系统层次结构中具有相同的父目录名称例如 var lib data sub1 sub2 commonname filetobecopied foo var lib dat
'回应？'与“定义？”

如果我想检查是否定义了给定名称的方法使用哪个更好 respond to or defined 从效率的角度来看可以有理由使用defined 因为defined 是一个内置关键字而respond to 是一种方法因此前者可能更快但另
Java正则表达式：为什么数字[0-9]、逗号等不是unicode？

class Test public static void main String args String regex p L System out println 0 matches regex 上面的代码打印 false 但我期待 tr
Ruby on Rails 两个同时创建两个不同控制器的操作

我有一个线程控制器和消息控制器线程 has many 消息用户单击发送后我将数据发送到线程控制器以创建线程我想做到这一点线程控制器 rb def create if thread save send data into messa
如何使用正则表达式将字符串分成相同字符的组？

我有一个这样的字符串 var string AAAAAAABBBCCCCCCDD 并喜欢将字符串分割成这种格式的数组 same characters gt same group 使用正则表达式 Array AAAAAAA BBB CCCCC
如何将文件的元素放入哈希中？ -红宝石

所以我有一个以下形式的文件 Key1 Value1 Key2 Value2 Key3 Value3 用制表符分隔我的问题是如何打开这个文件并将其放入哈希中我曾尝试这样做 fp File open file path fp each do
正则表达式数字字符串数字字符串循环

我的字符串是 str Move 10 Casio Watch 20 Apple Iphone 100 Apple Macbook to store 我用过了 preg match all 0 9 str matches 但它只匹配产品名称的
使用正则表达式模式查找 -name 并使用 cp 替换文件名

目前我正在使用该命令cron复制 data从源到目标路径 find source path name data exec cp target path 源码结构为 source path category1 001 data source
如何在不初始化Rails的情况下从schema.rb创建数据库？

我正在尝试从 schema rb 创建所有表我使用命令 rake db schema load 但是这失败了因为在我的一个初始化程序中它引用了一个显然不存在的模型表因为数据库为空我可以注释掉这些行然后再次运行 schema
处理铁路中 STI 子类路线的最佳实践

我的 Rails 视图和控制器散布着redirect to link to and form for方法调用有时link to and redirect to它们链接的路径是明确的例如link to New Person new per
ruby 字符串到哈希值的转换

我有一个这样的字符串 str uu p xx m yy n zz m 我想知道如何将给定的字符串转换为哈希值即我的实际要求是有多少个值符号之前有m n和p 我不需要计数我需要一个精确的值这样输出效果会更好 m gt xx zz
Java：正则表达式排除空值

在问题中here https stackoverflow com questions 51359056 java regexp for a separated group of digits 我得到了正则表达式来匹配 1 到 99 之间的一
Rails 6：每个用户只能创建一个配置文件

我目前正在开发 Rails 6 应用程序我有以下关联用户有一个配置文件并且配置文件属于用户当编辑用户的配置文件时我最终为该用户提供了两个配置文件我希望每个用户只有一份个人资料编辑表单 profile edit html erb
使用 Ruby 的“open-uri”打开 utf-8 URI 时遇到问题

我正在尝试使用 ruby 和 open uri 从谷歌地图网络服务 API 获取丹麦位置地址试图得到丹麦艾勒 http maps googleapis com maps api geocode json address r sensor
防止字符串中出现西里尔文/希腊文/中文 - C# 4.0

我们有一个支持希腊语西里尔语中文字符的系统使用 ASP NET C 4 0 但第三方系统似乎无法正常工作为了避免为此第三方系统输入数据时出现问题我想将文本字段限制为仅接受英语或重音字符但返回其他字符的验证错误我怎样才能做到这一
如何使用 Cucumber 和 Rspec 测试 Rails 3 引擎？

如果这个问题有点主观我深表歉意我正在尝试找出使用 Cucumber 和 Rspec 测试 Rails 3 引擎的最佳方法为了测试引擎需要 Rails 3 应用程序这是我目前正在做的事情通过运行以下命令将 Rails 测试应用程序
Ruby/Rails - 如何创建类并从控制器访问它

我一直在尝试使用一些不同的 gem 在 Rails 3 中显示谷歌地图但遇到了一些问题幸运的是我发现了这个https github com YouthTree bhm google maps https github com Youth
Bash 正则表达式——似乎无法匹配任何 \s \S \d \D \w \W 等

我有一个脚本试图从 gparted 获取信息块我的数据如下所示 Disk dev sda 42 9GB Sector size logical physical 512B 512B Partition Table msdos Number

随机推荐

MySQLdb 使用列表作为输入执行许多？

我想在我的程序中使用executemany一次存储20条记录这就是文档中所说的 c executemany INSERT INTO breakfast name spam eggs sausage price VALUES s s s s
为什么实体框架在 SELECT 上生成 JOIN

我在 C 应用程序中使用实体框架并且使用延迟加载我们注意到一个查询对我们的 CPU 有着极高的影响它仅仅计算一个总和调试实体框架生成的查询时它会创建一个INNER JOIN SELECT 这不是高性能的当我手动将查询更改为正确的
magento 付款流程..一般如何运作

有一个问题我希望这是问的正确地方不太明白magento 中的付款方式客户去结账假设想要以客人身份付款因此提供地址等最后找到付款方式然后我希望客户通过信用卡付款已经为我选择的网关银行安装了模块那时我希望用户被重定向到第
Mysql 变量无法通过 php mysql 查询工作

我有这样的疑问 query SET points 1 SET num 0 SELECT id rank num if points rank num num 1 as point rank FROM said ORDER BY rank 1
调用静态方法时发生致命错误

所以这是我的情况我正在使用 CodeIgniter 我已经设置了一个助手 DK 文件夹下的 string helper 我已经在 dk string helper php 中设置了 dkString 类 static function
测量 OpenMP Fork/Join 延迟

由于 MPI 3 具有共享内存并行功能并且它似乎与我的应用程序完美匹配因此我正在认真考虑将我的混合 OpemMP MPI 代码重写为纯 MPI 实现为了给棺材里钉上最后一颗钉子我决定运行一个小程序来测试 OpenMP fork jo
私人变更的用例

假设我有以下场景我克隆了一些开源项目例如从 URL X 克隆的项目现在我有了它的本地克隆我对本地克隆进行了一些更改以尝试并在本地提交它们现在我想要的是以下内容我想从开源项目 X 获取更新只需获取其所有最新代码无需我进行任何更
使用 Google 进行 OWIN 身份验证

我在 ASPNET MVC 项目上使用 owin 身份验证使用google时遇到以下问题 1 用户使用google帐户登录 2 用户退出 3 下次用户尝试登录时将自动使用当前的google帐户再次登录而不提示用户是否要使用其他帐户问
gdb nostop SIGSEGV 在特定线程上

我有一个程序故意在一个线程上出现段错误但我有一个问题另一个线程出现段错误我想用 GDB 捕获它我看到我可以 handle SIGSEGV nostop noprint 但我只想在故意这样做的线程上这样做有可能吗我会解释一下我有
extern auto 变量没有初始值设定项

我需要在我的 C 程序中使用全局时间戳 std chrono high resolution clock now 我在头文件Header h中声明了它 include
Tomcat 10 上的 Spring Boot 2.x 问题

我试图在 Tomcat Docker 容器中部署一个 war 文件但总是得到404 Not Found页我通过以下方式创建了 Spring Boot 项目Intellij 教程 https www jetbrains com help
javascript 在多个链式异步函数上等待

假设我有以下内容 const a new A await a getB action A prototype getB is async也B prototype action 如果我尝试等待函数的链接则会收到错误 TypeError a
SoapExtension 未加载

我正在尝试写一个肥皂扩展但框架没有加载它我已经添加到 web config
不同的Android SDK版本使用不同的图标

我的 Android 菜单有图标在 Android 3 上我使用黑色 ActionBar 因此图标为白色然而在 Android 2 x 上菜单本质上是白色的这意味着图标几乎不可见如何为不同版本使用不同的菜单图标我假设我可以使
我们如何重命名MySQL 5.0中的数据库名称[重复]

这个问题在这里已经有答案了我在用MySQL 5 0 我创建了一个名为accounts 但现在我想将数据库名称更改为FinanceAccounts 如何更改数据库名称MySQL 5 0 我认为只有一种方法除了重命名 MySQL datad
安全移动 Microsoft SDK 文件夹

我的硬盘上有一个文件夹 C Program Files Microsoft SDKs 我想知道将其移动到外部驱动器是否安全 Visual Studio 或任何其他工具是否依赖于此特定文件夹注册表中有相当多的条目至少在我的注册表中指向该
Cython指定固定长度字符串的numpy数组

我有一个函数我想使用 Cython 来处理大量固定长度的字符串对于标准 cython 函数我可以像这样声明数组的类型 cpdef double g double in arr cdef double out arr np zeros
对话框的对象位置 Libgdx

我有一个对话框 Dialog dialog new Dialog style dialog setSize 400 500 dialog setPosition Gdx graphics getWidth 2 200 Gdx graphic
使用自动 bash 脚本检查 FTP 中是否存在文件

我想自动化执行以下操作的批处理作业检查我的file txt存在于FTP服务器中我将其重命名为file trt 检查我的file txt and file trt存在如果存在我发送电子邮件我运行另一个脚本最后我删除file trt
Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个像这样结束的页面我目前正在 Ruby 中使用 Anemone gem 来构建爬虫我正在使用skip links like方法但我的模式似乎永远不匹配我试图使其尽可能通用因此它不依赖于子页面而只

Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL 的相关文章

随机推荐

热门标签