正则表达式在匹配链接行为时删除 - Python

2023-12-13

我想删除整个链接：

https://www.linkedin.com/in/ACoAAAJv1l4BATlBOVqhEEaqrVNojJPWnID9Nk0

当链接包含ACo正则表达式应该从我的模式中删除整个链接。

regex2 = re.compile(r"\bhttps?://www.linkedin.com/in/\b[^in]+")

由于某种原因，我没有让这个工作，想法是当链接的行为以“ACo”（大写 A 和大写 C）开头时删除/in/

我们有 4 个链接，我只想打印，https://www.linkedin.com/in/joao1 and https://www.linkedin.com/in/joao2.

unique_hrefs = ['https://www.linkedin.com/in/joao1','https://www.linkedin.com/in/joao2','https://www.linkedin.com/in/ACoAAAI3JyABlHv1LxXa27GHFneEbdrqAtMu9eY','https://www.linkedin.com/in/ACoAABWYG0kB8IXhFzDTCFGOwAZ18YbXprOLcmg']
    
regex = re.compile(r"\bhttps?://www.linkedin.com/in/\b[^in]+")

regex2 = re.compile(r"""\bhttps?://www\.linkedin\.com/in/ACo[^<>"'\s]*""")

filtered = [i for i in unique_hrefs if regex.search(i) and regex2.search(i)]

for i in filtered:
    print(i)

Use

import re
unique_hrefs = ['https://www.linkedin.com/in/joao1','https://www.linkedin.com/in/joao2','https://www.linkedin.com/in/ACoAAAI3JyABlHv1LxXa27GHFneEbdrqAtMu9eY','https://www.linkedin.com/in/ACoAABWYG0kB8IXhFzDTCFGOwAZ18YbXprOLcmg']
pattern = re.compile(r'https?://www\.linkedin\.com/in/ACo')
results = list(filter(lambda x: not pattern.match(x), unique_hrefs))
print(results)

See Python证明.

Results: ['https://www.linkedin.com/in/joao1', 'https://www.linkedin.com/in/joao2'].

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

正则表达式在匹配链接行为时删除 - Python 的相关文章

Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
转换MAC地址格式

我刚刚编写了一个小脚本从交换机中提取数百个 MAC 地址进行比较但它们的格式为 0025 9073 3014 而不是标准的 00 25 90 73 30 14 我对如何转换它感到困惑我能想到的最好的办法就是在处将它们分解成碎片然后
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

如何将 div 覆盖在框架集上？

我需要使用 jQuery 1 6 2 为现有 jsp 页面创建一个请等待页面我能够使 div 覆盖正常工作并在页面中心的模式窗口中显示请稍候动画然而覆盖层仅覆盖其中一个框架集即中心框架集 html 结构基本上是为了清楚起见
关闭 AngularJS 中的 URL 操作

我正在尝试使用 Angular 编写我的第一个网络应用程序在正常模式下 html5模式关闭 Angular 强制地址的哈希部分看起来像路径添加前导并对特殊字符进行编码例如它允许单个和在哈希中并用 3F 和 23 替换其他
如何从Python列表中删除所有重复元素？

我有一个这样的清单 1 2 3 4 3 5 3 6 7 8 我想从列表中完全删除重复元素此处 3 如下所示 1 2 4 5 6 7 8 如何在 python 中实现这一点以便不仅删除第一次出现的重复元素而且删除所有重复值您可以使用C
使用 Data studio 修剪 BigQuery 分区

我对这个问题有一个几乎相同的场景如何选择BigQuery表中最新的分区还有一个额外的并发症我需要在 Data Studio 中显示结果设置我有一系列以不同时间间隔出现的数据集我需要获取最新的分区因为它们之间的时间段不一致所以
如何在 SQL 和关系代数中无论列顺序如何只列出每对元组一次？

我正在做一些书本练习但找不到有关如何用关系代数表达以下内容的解释我确实找到了一个不过 SQL 的答案但我感兴趣的是是否有其他方法可以解决这个问题书中的问题是找到那些具有相同速度和 RAM 的 PC 型号对一对只能列出一次例如列
什么是拓扑排序

我在网上查找了很多例子并观看了 YouTube 视频但我仍然对拓扑排序是什么有点迷失据我了解您应该从已访问和未访问的队列开始并在访问完节点的所有子节点后获取拓扑排序顺序拓扑排序意味着你会得到一份工作列表和先决条件列表你必须弄清楚
如何获取当前日期和时间

如何在 Java 中获取当前日期和时间我正在寻找相当于DateTime Now来自 C 只需构建一个新的Date没有任何参数的对象这会将当前日期和时间分配给新对象 import java util Date Date d new Dat
输出 char8_t const* 到 cout 和 wcout，一编译一不

Since P1423R1为 char8 t char16 t 和 char32 t 添加已删除的 ostream 插入器如果我们希望将这些类型流式传输到 ostream 我们暂时会遇到需要编写自定义运算符的情况尝试对 MSVC 201
如何使用jquery获取选定的表行值？

我需要使用 jquery 通过单击行或链接来获取表中选定的行值我是 jquery 的新手任何人都可以帮助我提供示例代码这将对我有很大帮助提前致谢请参阅这个 jsFiddle 片段 http jsfiddle net hU89p 它
Flutter：如何停止特定子项的图像过滤器（颜色过滤器/绘画过滤器）？

我想将 ImageFilter 应用于 ListView 以便所有子项都会受到影响and所有孩子都会互相影响混合颜色这就是为什么将过滤器应用于子视图而不是列表视图不起作用的原因没关系但现在我需要在这些先前绘制的小部件之上放置另一个小部
如何向 Firefox 插件添加循环计时器？

我正在尝试使用新的插件构建器预览 https builder addons mozilla org 创建一个插件并且我需要一个大约每 10 分钟运行一次的函数我尝试了 setInterval 和 setTimeout 但它们都返回以下错
JavaScript 中的 getElementsByTagName [重复]

这个问题在这里已经有答案了我对纯 JavaScript 的语法很陌生你知道为什么 getElementsByTagName 在我的简单测试中不起作用吗 var btn document getElementsByTagName butt
将带有日期的 stderr 从 Cron 重定向到日志文件

bash 脚本从 cron 运行 stderr 被重定向到日志文件这一切都工作正常代码是 10 5 22 opt scripts sql fetch 2 gt gt opt scripts logfile txt 我想将日期添加到日志文
Java：CompletableFuture.supplyAsync() 不调用异步方法[重复]

这个问题在这里已经有答案了让我们假设以下主要方法 public class Async public static void main String args throws Exception CompletableFuture supp
java 强制 JTextField 仅为大写

有没有办法强制所有用户输入JTextFieldJava 中要大写吗一个完整的工作示例可能会帮助你 import java awt Dimension import java awt FlowLayout import javax swin
抓取动态数据硒 - 无法定位元素

我对抓取非常陌生有一个问题我正在抓取世界计量仪的新冠数据因为它是动态的我用硒来做代码如下 from selenium import webdriver import time URL https www worldometers
正则表达式：匹配除一个单词之外的所有内容[重复]

这个问题在这里已经有答案了我正在寻找一种正则表达式模式它可以匹配除一个单词之外的所有内容例如决议 monitors resolutions Should not match monitors 34 Should match moni
从 C 代码设置 ALSA 主音量

我一直在寻找一个简单的 C 代码示例来设置 ALSA 混音器的主音量但找不到任何简单的内容来完成这个所谓的常见操作我对 ALSA 完全不熟悉所以制作我自己的最小示例需要时间如果有人能提供一个我会很高兴以下内容对我有用参数体积应
PHP SQL 更新数组

我最初对以下内容感到满意以便将第 1 行和第 2 行更新为相同的值 status 1 if POST sql UPDATE table SET status 1 WHERE id IN 1 2 db gt query sql if db
正则表达式在匹配链接行为时删除 - Python

我想删除整个链接 https www linkedin com in ACoAAAJv1l4BATlBOVqhEEaqrVNojJPWnID9Nk0 当链接包含ACo正则表达式应该从我的模式中删除整个链接 regex2 re compile

正则表达式在匹配链接行为时删除 - Python

正则表达式在匹配链接行为时删除 - Python 的相关文章

随机推荐

热门标签