Scrapy使用正则表达式从页面文本中提取数字

2024-03-06

我花了几个小时来了解如何搜索页面上的所有文本以及如果它与正则表达式匹配则提取它。我的蜘蛛设置如下：

def parse(self, response):
        title = response.xpath('//title/text()').extract()
        units = response.xpath('//body/text()').re(r"Units: (\d)")
        print title, units

我想提取页面上“单位：”后面的数字。当我在正文中包含 Units: 351 的页面上运行 scrapy 时，我只得到页面的标题，前后有一堆转义符，而没有任何单位。

我是 scrapy 新手，有一点 python 经验。任何有关如何提取 Units: 后面的整数并从标题中删除额外的转义字符“u'\r\n\t...”的帮助将不胜感激。

EDIT:根据评论，这里是示例页面的部分 html 摘录。请注意，除了本例中的 p 之外，这可能位于不同的标签内：

<body>
<div> Some content and multiple Divs here <div>
<h1>This is the count for Dala</h1>
<p><strong>Number of Units:</strong> 801</p>
<p>We will have other content here and more divs beyond</p>
</body>

根据下面的答案，这就是大部分内容。仍在努力删除 Units: 和额外的转义字符。

units = response.xpath('string(//body)').re("(Units: [\d]+)")

Try:

response.xpath('string(//body)').re(r"Units: (\d)")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

python27

Scrapy

Scrapy使用正则表达式从页面文本中提取数字的相关文章

AWS Lambda python API 调用方法不返回 JSON - 不可序列化？

我有一个 Lambda 函数它是对 API 的基本 Python GET 调用它在本地运行良好但是当我上传到 Lambda 以及请求库时它不会从 API 调用返回 JSON 响应我只是希望它将整个 JSON 对象返回给调用者我
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
从 Oracle Varchar2 中查找并删除非 ASCII 字符

我们目前正在将一个 Oracle 数据库迁移到 UTF8 并且发现一些记录接近 4000 字节 varchar 限制当我们尝试迁移这些记录时它们会失败因为它们包含的字符变成了多字节 UF8 字符我想要在 PL SQL 中做的是找到这
正则表达式是否用于构建解析器？

这只是出于好奇的一个问题因为我最近需要越来越多地解析和使用正则表达式似乎对于我在搜索中遇到的有关某种解析的问题有人总是最终说当问一些与正则表达式相关的问题正则表达式对此不好请使用这样那样的解析器因为我已经更好地理解了正则表达
优化正则表达式来解析中文拼音[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个有
PHP：检查任何基于拉丁语的语言中的字母字符？

使用 PHP 我想检查一个字符串仅包含字母字符我不想允许任何数字或特殊字符例如 ctype alpha 对于这个目的来说似乎很棒问题是我想允许重音字母例如法语等例如我想允许 L rien 我知道ctype alpha 可以与se
使用正则表达式反转匹配[重复]

这个问题在这里已经有答案了使用 PCRE 如何构造一个仅在字符串是时才匹配的表达式not成立如果我使用 grep 我没有我会想要 v 选项一个更具体的例子我希望我的正则表达式能够匹配 if 字符串foo is not在字符串中所
Bash - 在 perl 正则表达式中使用变量以及匹配组

这是我在 stackoverflow 上的第一篇文章如果我错过了一些重要的内容请原谅我我目前遇到以下问题目标是根据我准备的文件列表动态替换端口号find 这些文件中的所有端口均以数字 4 开头有 5 位数字现在是棘手的部分我只
如何在MySQL选择查询中编写正则表达式？

我尝试过这个表达 b word w b i比较一个word对照其他单词列表来查找重复项我用了preg math all 效果很好我想做同样的事情但这次检查从 mysql 数据库检索到的单词这是我写的 SELECT FROM tabl
正则表达式中间名首字母有或没有它

我似乎无法正确验证用户 FirstName LastName 并检查 MiddleName 如下所示 John Doe Valid John M Doe Valid John Mr Doe Invalid John m Doe Invali
Perl 的 grep 函数如何与正则表达式一起使用？

以下 grep 函数如何工作什么作用 0o1Iil do chars grep 0o1Iil 0 9 A Z a z use Data Dumper print Dumper chars 在 chars中生成以下内容 VAR1 0 VAR
ASP.NET MVC 6 中的属性路由正则表达式约束错误

我添加以下路由属性 HttpGet Route add Route id int inn regex 0 9 incBalance range 0 1 dateSet datetime dateNext datetime public IA
YouTube 频道 URL 的正则表达式

如何使用 REGEX 验证 YouTube 频道 URL 我发现了这个模式但它不能正常工作 http https www youtube com channel user a zA Z0 9 1 谁能帮我你的问题是之后的额外管道user
正则表达式：如何表达没有下划线的 \w

有没有简洁的表达方式 w but without 即 w 中包含的所有字符除了我问这个是因为我正在寻找最简洁的方式来表达域名验证域名可以包含小写和大写字母数字句号和破折号但不能包含下划线 w 包括以上所有内容加上下划线那么
匹配 JavaScript RegEx 中的不可见字符

我有一些包含不可见字符的字符串但它们位于可预测的位置通常围绕我想要提取的文本片段然后在第二次出现之后我想保留文本的其余部分我似乎不知道如何关闭隐形字符 and将它们从我的结果中排除为了匹配隐形我一直在使用这个正则表达式 xA0
jQuery自动完成插件-自定义突出显示功能

我的每个项目的自动完成结果如下所示 h3 Celebrity Sweepstakes h3 p 0 episodes p 但我只想突出显示 H3 内的标题请参阅下面的突出显示功能我不知道如何更改原始正则表达式以仅替换标题内的内容 s
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
如何使用正则表达式解析 OCC 选项符号？

OCC 选项符号由 4 部分组成标的股票或 ETF 的根代码用空格填充至 6 个字符到期日期 6 位数字格式为 yymmdd 期权类型 P 或 C 用于看跌或看涨期权执行价格为价格 x 1000 前面填充 0 至 8 位数字举
无法执行'x86_64-conda_cos6-linux-gnu-gcc'：没有这样的文件或目录（pysam安装）

我正在尝试安装 pysam 执行后 python path to pysam master setup py build 这个错误的产生是 unable to execute x86 64 conda cos6 linux gnu gcc

随机推荐

修改并重新编译Android SDK

我知道Android中实现的一些方法和一些类没有导出到Android公共SDK中我已经能够通过编译我的应用程序并将其放置在 Android 树中来创建一个使用其中一些功能的应用程序是否可以通过从源代码重新编译这些函数来将其导出到 And
如何将一个数组输入与另一个数组输入关联起来？

假设我有 2 个扫描仪填充的阵列 name and age 每一项都按顺序填写如果我要找到数组中最年长的人如何使用数组打印出他们的名字和年龄例如最大的条目age was 78 有没有办法将其与name 数组来打印它参考代码 publ
当元素有多个类时，jquery 按特定类查找元素

所以我正在做一些后端团队在构建时没有经过深思熟虑的事情这给我留下了一个充满 div 的文档我正在做的是从我需要单击的元素回滚获取父容器然后在父容器中找到一个元素class alert box warn class alert box
在自定义损失函数中重塑张量

我有一个类似的问题这个问题 https stackoverflow com questions 43056512 reshape tensorflow tensor inside keras loss function 我正在尝试在 ker
使用 WorkflowServiceHost 进行 WF4 工作流版本控制

相关这个问题 https stackoverflow com questions 2064518 loading persisted workflow after workflowdefinition has changed in wf4
Android：ListAdapter 示例重绘相同内容

我使用此示例中的 ListAdapter http code google com p au optimizing layouts 201 source browse au optimizinglayouts src com example
显示在 SQL Management Studio (2008) 中为表创建命令

我刚刚开始使用 SQL Management Studio 我想知道是否可以显示现有表的创建命令我已经能够在 Oracle SQL Developer 中做到这一点我试图问 google 叔叔但可能只使用过错误的搜索命令无论如何有
背景图像路径在 CSS 中不起作用

相对路径在 CSS 中不起作用尽管它是正确的 width 64px background url images abc xyz bottom navigation jpg no repeat 0 0 萤火虫给出这个错误 Folder pa
Django内连接查询

我正在使用 django 很难掌握如何进行复杂的查询这是我的模型 class TankJournal models Model user models ForeignKey User tank models ForeignKey Tank
如何取消目标c中的本地单个通知

你能帮我看看如何在 iOS 10 中取消本地通知吗 UNUserNotificationCenter center UNUserNotificationCenter currentNotificationCenter center remo
反序列化动态 XML

The XML下面总是采用这种格式但是下面的元素
如何在自定义 TF2.4 训练循环中使用指数移动平均线

我有一个自定义训练循环可以简化如下 inputs tf keras Input dtype tf float32 shape None None 3 model tf keras Model inputs inputs loss f in
JRMP 连接建立时出错

我收到以下异常跟踪 java rmi ConnectIOException error during JRMP connection establishment nested exception is java net SocketTime
如何使用 Ruby 正则表达式匹配多位数字范围？

我正在尝试将 0000 格式的时间码匹配到 2459 如何匹配特定范围内的数字以便可以专门匹配 0 到 24 之间的所有数字以及 0 到 59 之间的所有数字而不大于或小于我知道如何匹配每个单独的数字但这不会达到我想要的效果因为例
如何使android列表视图中的文本从右到左对齐？

拜托我想让我的列表视图的项目像这样从右到左开始我该怎么做将以下内容添加到布局中 android layoutDirection rtl
Spring Tool Suite创建新的spring starter项目报错

我使用的是 spring 工具套件版本 3 8 3 在尝试创建新的 spring 启动项目时我收到错误 UnknownHostException start spring io 但我可以创建 Maven 项目并添加 Spring Boot
使 Web API 控制器异步返回 IQueryable 列表

我一直在尝试使以下控制器方法异步 public IQueryable
DbFit - 无法弄清楚如何在独立模式下运行

好吧我还是 DBFit 的新手我从这里下载了文件 Dbfit下载页面 https github com dbfit dbfit releases download v2 1 1 dbfit complete 2 1 1 zip 并运行s
为什么我会收到编译错误“org/codehaus/groovy/control/CompilationFailedException”？

我正在尝试使用 Ant 脚本和 Java 编译我的 JasperReports 模板我收到此错误 jasper java lang NoClassDefFoundError org codehaus groovy control Comp
Scrapy使用正则表达式从页面文本中提取数字

我花了几个小时来了解如何搜索页面上的所有文本以及如果它与正则表达式匹配则提取它我的蜘蛛设置如下 def parse self response title response xpath title text extract units r

Scrapy使用正则表达式从页面文本中提取数字

Scrapy使用正则表达式从页面文本中提取数字 的相关文章

随机推荐

热门标签

Scrapy使用正则表达式从页面文本中提取数字的相关文章