Python正则表达式捕获各种url模式组

2024-03-28

我有包含这样的字符串的数据集，我想从中删除所有网址

http://google.com having trouble finding regex https://google.com for this case http // google com / test some gibberish https // google . com / test / test1 great http.//google.org

现在，我使用这个正则表达式模式来查找所有网址：

https?:?\s?\/\/\s?\S+

现在，理想情况下，它应该捕获所有 url，例如在本例中，

http://google.com
https://google.com
http // google com / test
https // google . com / test / test1
http.//google.org

但使用我的正则表达式模式，它仅捕获

http://google.com
https://google.com
http // google
https // google

Link to .

您可以使用

https?[:.]?\s?\/\/(?:\s*[^\/\s.]+)+(?:\s*\.\s*[^\/\s.]+)*(?:\s*\/\s*[^\/\s]+)*

See the 正则表达式演示 https://regex101.com/r/syMCD7/3.

Details

https? - http or https
[:.]?- 可选的: or .
\s?- 可选的空白 -\/\/ - //字符序列
(?:\s*[^\/\s.]+)+ - (to match all domain name parts till the last . before TLD) 1 or more occurrences of
- \s*- 0个或多个空格
- [^\/\s.]+- 1 个或多个字符以外的字符/, .和空白
(?:\s*\.\s*[^\/\s.]+)* - 0 or more sequences of
- \s*\.\s*- 一个由 0+ 个空格包围的点
- [^\/\s.]+- 1 个或多个字符以外的字符/, .和空白
(?:\s*\/\s*[^\/\s]+)* - 0 or more sequences of
- \s*\/\s* - a /包含 0+ 个空格
- [^\/\s]+- 1 个或多个字符以外的字符/和空白

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

Python正则表达式捕获各种url模式组的相关文章

无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
如果列表中的某个字符位于该字符之前，请选择该字符

我有这个正则表达式 a z s gmi 该正则表达式选择从我的文字中 sme a eliezovce 2015 Spolo ne pre Eur pu Osl vili aj 940 但我只想选择没有如果列表中的某些字符 a z 之前
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
通过 SSH 的 Pygame 不注册击键（Raspberry Pi 3）

所以我得到了 raspi 3 和简单的 8x8 LED 矩阵在玩了一些之后我决定用 pygame 的事件制作一个简单的蛇游戏显示在该矩阵上我之前没有 pygame 的经验除了 LED 矩阵之外没有连接任何屏幕显示器所以最初的
Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
jQuery自动完成插件-自定义突出显示功能

我的每个项目的自动完成结果如下所示 h3 Celebrity Sweepstakes h3 p 0 episodes p 但我只想突出显示 H3 内的标题请参阅下面的突出显示功能我不知道如何更改原始正则表达式以仅替换标题内的内容 s
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
仅获取图像中的外部轮廓

我有这段代码可以在图像中绘制轮廓但我只需要外部轮廓 import cv2 import numpy as np camino C Users Usuario Documents Deteccion de Objetos 123 jpg
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
字边界正则表达式问题

我在使用单词边界时遇到问题 b在我的正则表达式中我正在使用 R 但当我尝试时问题也存在http regexr com http regexr com 我使用的模式是 bs l b 虽然我预计下面的第 1 行和第 3 行能够匹配此模式但只
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
使用 MinGW 链接到 Python

我不想创建一个嵌入Python解释器的跨平台程序并用MinGW编译它但是 Python 二进制发行版没有提供 MinGW 链接的库仅python32 lib对于 Visual C 并且 Python 源包不提供使用 MinGW 编译的
用于检查字符串是否至少包含 3 个字母数字字符的最有效的正则表达式

我有这个正则表达式 a zA Z0 9 3 我用它来查看字符串中是否至少包含 3 个字母数字字符似乎有效它应该匹配的字符串示例 a3c 0 c 8 9 9d 但是我需要它更快地工作有没有更好的方法使用正则表达式来匹配相同的模式编辑
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp

随机推荐

在 vscode 中将现有 Java 项目转换为 Maven

我有一个没有任何东西的旧Java项目我想使用maven 因为缺少一些依赖项并且我找不到库有人可以告诉我如何将该项目转换为 MavenWITH VSCODE 以下是一些步骤告诉 VS Code使用Maven https code vis
如何获取最顶层活动的标识符？

我有一个服务当最顶层的 Activity 发生变化时它的行为必须改变假设活动 A 处于活动状态然后服务开始某种处理当 Activity A 不再可见时此处理必须停止用户按下后退主页或执行任何其他操作使 Activity
MySQL 记录 UPDATE 应该会失败，但实际上却没有。为什么？

这是一个有趣的情况我用 MySQL 开始一个事务我的交易涉及3个相关查询每个查询都必须成功如果没有成功则不应将任何查询写入数据库现在故意对于第二个查询这恰好是一个更新查询我改变了标识要更新为无效不存在 PK 值的记录
在散点图中将值绘制为符号的最简单方法？

在回答我之前关于修复 4D 数据散点图像的色彩空间的问题时 Tom10 建议将值绘制为符号以便仔细检查我的数据一个好主意我过去运行过一些类似的演示但我一生都找不到我记得的演示非常简单那么将数值绘制为散点图中的符号而不是 o 的
IPv6 地址的正则表达式

我有一个 IPv6 地址的正则表达式如下所示 IPV4ADDRESS t digit 1 3 3 digit 1 3 t x4 xdigit 1 4 xseq x4 x4 0 7 xpart xseq xseq xseq xseq IPV
Scala sbt：sbt 中的多个依赖项

我是 Scala 的新用户正在按照创建 scala sbt 项目的方式进行操作 https www youtube com watch v Ok7gYD1VbNw https www youtube com watch v Ok7gYD1
如何在shell中剪切字符串的第一列（可变长度）

如何在shell中剪切字符串的第一列可变长度字符串的前 23006 帮助 txt 我需要 23006 作为输出很多方法 cut d f1
为什么我的 WebClient 大多数时候会返回 404 错误，但并非总是如此？

我想要获取有关我的程序中的 Microsoft 更新的信息但是服务器在大约 80 的情况下会返回 404 错误我将有问题的代码归结为这个控制台应用程序 using System using System Net namespace W
实施 Dijkstra 算法

我的任务是大学课程实施某种形式的寻路现在在规范中我可以实现强力因为要搜索的节点数量有限制开始中间两个结束但我想重新使用此代码并来实现迪杰斯特拉算法 http en wikipedia org wiki Dijkstra
如何防止android服务被杀死（带通知的服务）

我正在开发一个需要不断显示通知的应用程序我有一项服务可以每秒显示一次通知当资源不足时 android 就会终止我的服务我已经从 onStartCommand 给出了返回 START STICKY 因此一段时间后服务将重新启动但与
如何创建自定义元素扩展类的新实例

我正在尝试以下示例谷歌开发者网站 https developers google com web fundamentals getting started primers customelements extendhtml我收到错误 Typ
如何使用 Grunt 为 LESS 配置 sourceMap？

我正在使用 grunt 0 4 2 和 grunt contrib less 0 9 0 我希望将我的 LESS 编译成 CSS 并支持源映射我的 LESS 文件位于public less 主要的称为main less 的编译public
无论如何，Bootstrap 导航栏都不会居中

我一直在尝试使用 Bootstrap 将我的导航栏集中在导航栏的中心这非常糟糕我尝试过使用类似问题中的信息例如this one https stackoverflow com questions 7165423 twitter boo
JS hasAttribute 带有数据属性值

有没有一种原生方法没有 jQuery 来检查 dom 元素是否具有具有所选值的属性例如 assume doc has data mod do defined 这将是真的 document hasAttribute data mod 但这
Xamarin 表单 - 以流形式打开文件

这可能是一个非常简单的问题但当我们谈论流时我总是感到困惑我正在尝试在 Xamarin Forms 项目的 Android 部分中打开一个文件我有一个 Java IO File 我想将其转换为流以便能够使用这个简单的函数将其发送到 A
当一个值的所有者可以读取它而另一个线程更改它时，Rust 如何防止数据竞争？

Rust 书中指出了以下内容参考文献和借用 https doc rust lang org book ch04 02 references and borrowing html mutable references 当我们有一个不可变的引用
可观察，出错时重试并仅在完成时缓存

我们可以使用cache 运算符来避免多次执行长任务 http请求并重用其结果 Observable apiCall createApiCallObservable cache notice the cache the first time
JQuery 检测程序更改事件

如果我执行 jQuery expr change function 那么当用户更改值时我可以触发一个事件函数如果以编程方式更改它即如果我调用 jQuery expr val moo 是否可以触发它或者如果一些普通的旧 JavaScr
Laravel 5：未找到 DB Seed 类

我有这个 DatabaseSeeder php
Python正则表达式捕获各种url模式组

我有包含这样的字符串的数据集我想从中删除所有网址 http google com having trouble finding regex https google com for this case http google com te

Python正则表达式捕获各种url模式组

Python正则表达式捕获各种url模式组 的相关文章

随机推荐

热门标签

Python正则表达式捕获各种url模式组的相关文章