如何将多个正则表达式组合成一行？

2024-02-23

我的脚本可以很好地执行此操作：

images = re.findall("src.\"(\S*?media.tumblr\S*?tumblr_\S*?jpg)", doc)
videos = re.findall("\S*?(http\S*?video_file\S*?tumblr_[a-zA-Z0-9]*)", doc)

但是，我认为两次搜索整个文档的效率很低。

如果有帮助的话，这是一个示例文档：http://pastebin.com/5kRZXjij http://pastebin.com/5kRZXjij

我期望上面的输出如下：

images = http://37.media.tumblr.com/tumblr_lnmh4tD3sM1qi02clo1_500.jpg
videos = http://bassrx.tumblr.com/video_file/86319903607/tumblr_lo8i76CWSP1qi02cl

相反，最好这样做：

image_and_video_links = re.findall(" <match-image-links-or-video links> ", doc)

我怎样才能将两者结合起来re.findall线合而为一？

我尝试过使用|但我总是无法匹配任何东西。所以我确信我对如何正确使用它完全感到困惑。

正如评论中提到的，a pipe (|)应该可以解决问题。

正则表达式

(src.\"(\S*?media.tumblr\S*?tumblr_\S*?jpg))|(\S*?(http\S*?video_file\S*?tumblr_[a-zA-Z0-9]*))

捕获两种模式中的任何一种。

Demo on

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

如何将多个正则表达式组合成一行？的相关文章

正则表达式允许零，只要它不是第一个数字[重复]

这个问题在这里已经有答案了昨天我在这里发布了一个问题正则表达式允许 null 或 1 到 9 数字 https stackoverflow com questions 40354842 regular expression allow n
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet

随机推荐

在 C++ 中将序列化的 Thrift 结构序列化到 Kafka

我有一套structs定义于Thrift例如以下内容 struct Foo 1 i32 a 2 i64 b 我需要执行以下操作C a 序列化实例Foo转换为 Thrift 兼容字节使用Binary or Compact节俭协议 b 将字节
Objective C 中的 INT32U 和 INT8U

我在声明下方遇到错误当声明 INT32U 时我得到错误 Though INT32U和 int 是 4 个字节我如何声明 INT8U 的等价物我不能使用 int 这里作为它的INT8U是2个字节 INT32U C Uucode IN
JavaScript - 动态创建 SVG 并修改光标

假设我有一个 HTML5 画布在本例中使用 Fabric js 并且我想更改画布上的光标以表示已选择的画笔大小和颜色我认为应该有一种方法可以通过使用 JS 动态更改 SVG 的属性大小和颜色来做到这一点这样我们就不必使用多个图像
React Native热重载刷新但不更新更改

我了解 React 的基础知识并在 React 上完成了一些个人项目现在我开始反应本机 https facebook github io react native 所以我创建了一个新项目并运行run android命令它完成了所有必需
隐藏 UITabBarController 中的顶部栏

如何使用 OBJ C 代码不使用 Interface Builder 隐藏 UITabBarController 中的顶部栏请参阅下面链接中的图片以更好地了解我的要求 http skitch com jugsvn dxkr7 iphon
如何对 MIME 消息中 Content-Disposition 标头的文件名参数值进行编码？

通过查看一些邮件的来源我发现很多邮件都使用了 Encoded Words RFC 2047 https www ietf org rfc rfc2047 txt 格式对文件名参数值进行编码然而根据 RFC 2047 这种编码方法不应用
Facebook SDK 是否使用 IDFA 进行移动应用程序安装？

当您集成 Facebook SDK 来跟踪移动应用程序安装时这是否使用 IDFA 因此您是否必须回答yes提交应用程序供审核时 iTunes Connect 问题中的相应问题这是代码中的application didFinishLaun
组件宽度属性发生意外变化

我注意到运行下面列出的程序有时会产生不需要的效果编辑我简化了代码以使事情看起来更清晰我正在绘制一个字符串它打印出当前组件的大小我重写了 Component 类中的 getPrefferedSize 方法并将宽度和高度分别设置为
Clojure 打印函数：pr 与 print

有什么区别pr prn and print println 什么时候会使用其中一个而不是另一个它们在以下方面有所不同 print println生产供人类消费的产出 pr prn产生读者可以阅读的输出因此在为人类生成输出时使用前一个函
Mailgun：使用解析云代码发送图像

我有一个代码定义为 Parse Cloud define mailgunSendMail function request response var Mailgun require mailgun Mailgun initialize ph
如何重定向到 root - public/index.html？

我希望重定向到我的 application public 文件夹中的index html def get current user current user current user if current user nil redirect
jQuery animate() 和浏览器性能

我有一些元素在页面上移动得非常缓慢本质上我在 40 秒左右的时间内减少了两个图像的左边距从视觉上看它的工作效果非常好然而在动画播放过程中我的处理器使用率跃升至 50 左右这也不特定于任何单一浏览器 Safari3 和 Fir
如何在可编码结构中使用计算属性（swift）

我创建了一个可编码结构来序列化数据集并将其编码为 Json 除了计算属性未显示在 json 字符串中之外一切都运行良好如何在编码阶段包含计算属性 Ex struct SolidObject Codable var height Do
使用 Logback 但 Log4j 开始显示 WARN no Appenders

我正在使用 logback 进行日志记录但它一直在工作前几天我开始收到警告 log4j WARN 找不到记录器 org apache axis i18n ProjectResourceBundle 的附加程序 log4j WARN 请正
在 Flutter 中制作固定的应用程序范围菜单，而不是平板电脑上的抽屉

我的应用程序有很多路线几乎每条路线都使用带有相同抽屉菜单的 Scaffold 在应用程序内部导航我自己的 CustomDrawer 小部件对于大屏幕的设备我希望始终在布局中显示左侧的菜单而不是使用抽屉它在Gmail应用程序中的工
使用 Erlang，我应该如何在集群之间分配负载？

我正在查看从属池模块它看起来与我的类似想要但似乎我的系统中存在单点故障应用程序如果主节点出现故障客户端有一个网关列表为了后备全部都做相同的东西接受连接并且从其中选择一个由客户随机当客户端连接所有节点时检查哪个负
在 Windows 上优雅地终止子 Python 进程，以便 Final 子句运行

在 Windows 机器上我有许多父进程将启动子进程的场景由于各种原因父进程可能想要中止子进程但是这很重要让它清理即运行finally子句 try res bookResource doStuff res finally cle
在 Erlang 中使用 mochijson2 解码 JSON

我有一个包含一些 JSON 数据的 var A lt lt job id 1 gt gt 使用 mochijson2 我解码数据 Struct mochijson2 decode A 现在我有这个 struct lt lt job gt g
使用 lambda 函数在 pandas group 中聚合

我有一个聚合声明如下 data data groupby type status name agg one np mean two lambda value 100 value gt 32 sum reading mean test2 la
如何将多个正则表达式组合成一行？

我的脚本可以很好地执行此操作 images re findall src S media tumblr S tumblr S jpg doc videos re findall S http S video file S tumblr a

如何将多个正则表达式组合成一行？

如何将多个正则表达式组合成一行？ 的相关文章

随机推荐

热门标签

如何将多个正则表达式组合成一行？的相关文章