正则表达式在匹配链接行为时删除 - Python

2023-12-13

我想删除整个链接:

https://www.linkedin.com/in/ACoAAAJv1l4BATlBOVqhEEaqrVNojJPWnID9Nk0

当链接包含ACo正则表达式应该从我的模式中删除整个链接。

regex2 = re.compile(r"\bhttps?://www.linkedin.com/in/\b[^in]+")

由于某种原因,我没有让这个工作,想法是当链接的行为以“ACo”(大写 A 和大写 C)开头时删除/in/

我们有 4 个链接,我只想打印,https://www.linkedin.com/in/joao1 and https://www.linkedin.com/in/joao2.

unique_hrefs = ['https://www.linkedin.com/in/joao1','https://www.linkedin.com/in/joao2','https://www.linkedin.com/in/ACoAAAI3JyABlHv1LxXa27GHFneEbdrqAtMu9eY','https://www.linkedin.com/in/ACoAABWYG0kB8IXhFzDTCFGOwAZ18YbXprOLcmg']
    
regex = re.compile(r"\bhttps?://www.linkedin.com/in/\b[^in]+")

regex2 = re.compile(r"""\bhttps?://www\.linkedin\.com/in/ACo[^<>"'\s]*""")

filtered = [i for i in unique_hrefs if regex.search(i) and regex2.search(i)]

for i in filtered:
    print(i)

Use

import re
unique_hrefs = ['https://www.linkedin.com/in/joao1','https://www.linkedin.com/in/joao2','https://www.linkedin.com/in/ACoAAAI3JyABlHv1LxXa27GHFneEbdrqAtMu9eY','https://www.linkedin.com/in/ACoAABWYG0kB8IXhFzDTCFGOwAZ18YbXprOLcmg']
pattern = re.compile(r'https?://www\.linkedin\.com/in/ACo')
results = list(filter(lambda x: not pattern.match(x), unique_hrefs))
print(results)

See Python证明.

Results: ['https://www.linkedin.com/in/joao1', 'https://www.linkedin.com/in/joao2'].

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式在匹配链接行为时删除 - Python 的相关文章

  • Pandas 字符串提取所有匹配项

    我正在学习 pandas 系列字符串方法中的正则表达式操作 我能够从字符串中提取第一个数字 但我的正则表达式与第二个数字不匹配 如何捕获这两个数字 注意第二行 第二个元素在这里是 NAN CODE import pandas as pd d
  • 如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

    我尝试添加PYTHONSTARTUP环境变量 我还尝试了自定义启动脚本 但更令人惊讶的是 这also没有工作 npa别名无法识别 出于一点绝望 我什至尝试添加到interpreter options 那什么也没做 实际上是什么Interpr
  • 如何移动我的图像? python 3.10.4 pygame

    我会移动我的图像 图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西 因为我真的是 python 的初学者 pygame但是是 x x 变化 但图像没有移动 import os import py
  • 我应该为 MySQL 使用什么 python 3 库? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
  • 在 Python 中绘制分类数据的三个维度

    我的数据包含三个我试图可视化的分类变量 城市 五个之一 职业 四种之一 血型 四种之一 到目前为止 我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
  • 小数缓存是Python规范中定义的还是一个实现细节?

    Python 似乎有一个所谓的 小数字缓存 用于存储 5 到 256 范围内的数字 我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
  • 检测/删除 Python 2 + GTK 中不成对的代理字符

    在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
  • 从主机名中提取域名

    是否有一种编程方式可以从给定的主机名查找域名 给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是 拆分为 并从左侧删除 1 个组 使用 dnspython 加入并查询 SOA 记录 当返回有
  • 使用 boto3 从 s3 下载时使用 filename 作为文件名

    我正在使用 boto3 上传文件 如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
  • Flask 中的 import 和 extends 有什么区别?

    我正在阅读 Flask Web 开发 在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别 我认为它们在用法上很相似 在什
  • 如何使用 xlrd 将新列和行添加到 .xls 文件

    如何向 xlrd 中的工作表添加新列和 或行 我有一个使用 open workbook 读取的 xls 文件 我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行 但我在 xlrd 文档中找不到任何显示如何添加新行和
  • Python,多线程,获取网页,下载网页

    我想在一个站点批量下载网页 我的 urls txt 文件中有 5000000 个 url 链接 大约有300M 如何让多线程链接这些网址并下载这些网页 或者如何批量下载这些网页 我的想法 with open urls txt r as f
  • 如何绘制多类分类器的精度和召回率?

    我正在使用 scikit learn 我想绘制精度和召回曲线 我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类 另外 我可以绘制多类的 ROC 曲线吗 另外 我只找到
  • Python:帮助(numpy)在退出时导致段错误

    我遇到了一个奇怪的现象 在 python 解释器中 我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确 但一旦我按 q 返回解释器 Segmentation fault core
  • Python 中的十进制到二进制半精度 IEEE 754

    我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块 或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数 我
  • 如何限制scrapy请求对象?

    所以我有一个蜘蛛 我认为它正在泄漏内存 结果当我检查 telnet 控制台 gt gt gt prefs 时 它只是从链接丰富的页面中抓取了太多链接 有时它会超过 100 000 个 现在我已经一遍又一遍地浏览文档和谷歌 但我找不到一种方法
  • 如何将 fields 参数传递到 Google Drive Python API 调用中

    I have results drive service files list body execute where body q query string maxResults 1 为了提高性能 我想限制返回的字段 如下所述 https
  • Scrapy 抓取并跟踪 href 中的链接

    我对 scrapy 很陌生 我需要从 url 的主页跟踪 href 到多个深度 再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面 我的页面的示例 html 是 初始页 div class page
  • 转换MAC地址格式

    我刚刚编写了一个小脚本 从交换机中提取数百个 MAC 地址进行比较 但它们的格式为 0025 9073 3014 而不是标准的 00 25 90 73 30 14 我对如何转换它感到困惑 我能想到的最好的办法就是在 处将它们分解成碎片 然后
  • django admin 中内联模型的分页器

    我有这个简单的 django 模型 由一个传感器和特定传感器的值组成 每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

  • 如何将 div 覆盖在框架集上?

    我需要使用 jQuery 1 6 2 为现有 jsp 页面创建一个请等待页面 我能够使 div 覆盖正常工作 并在页面中心的模式窗口中显示 请稍候 动画 然而 覆盖层仅覆盖其中一个框架集 即中心框架集 html 结构基本上是 为了清楚起见
  • 关闭 AngularJS 中的 URL 操作

    我正在尝试使用 Angular 编写我的第一个网络应用程序 在正常模式下 html5模式关闭 Angular 强制地址的哈希部分看起来像 路径 添加前导 并对特殊字符进行编码 例如 它允许单个 和 在哈希中 并用 3F 和 23 替换其他
  • 如何从Python列表中删除所有重复元素?

    我有一个这样的清单 1 2 3 4 3 5 3 6 7 8 我想从列表中完全删除重复元素 此处 3 如下所示 1 2 4 5 6 7 8 如何在 python 中实现这一点 以便不仅删除第一次出现的重复元素 而且删除所有重复值 您可以使用C
  • 使用 Data studio 修剪 BigQuery 分区

    我对这个问题有一个几乎相同的场景 如何选择BigQuery表中最新的分区 还有一个额外的并发症 我需要在 Data Studio 中显示结果 设置 我有一系列以不同时间间隔出现的数据集 我需要获取最新的分区 因为它们之间的时间段不一致 所以
  • 如何在 SQL 和关系代数中无论列顺序如何只列出每对元组一次?

    我正在做一些书本练习 但找不到有关如何用关系代数表达以下内容的解释 我确实找到了一个不过 SQL 的答案但我感兴趣的是是否有其他方法可以解决这个问题 书中的问题是 找到那些具有相同速度和 RAM 的 PC 型号对 一对只能列出一次 例如 列
  • 什么是拓扑排序

    我在网上查找了很多例子并观看了 YouTube 视频 但我仍然对拓扑排序是什么有点迷失 据我了解 您应该从已访问和未访问的队列开始 并在访问完节点的所有子节点后获取拓扑排序顺序 拓扑排序意味着你会得到一份工作列表和先决条件列表 你必须弄清楚
  • 如何获取当前日期和时间

    如何在 Java 中获取当前日期和时间 我正在寻找相当于DateTime Now来自 C 只需构建一个新的Date没有任何参数的对象 这会将当前日期和时间分配给新对象 import java util Date Date d new Dat
  • 输出 char8_t const* 到 cout 和 wcout,一编译一不

    Since P1423R1为 char8 t char16 t 和 char32 t 添加已删除的 ostream 插入器 如果我们希望将这些类型流式传输到 ostream 我们暂时会遇到需要编写自定义运算符的情况 尝试对 MSVC 201
  • 如何使用jquery获取选定的表行值?

    我需要使用 jquery 通过单击行或链接来获取表中选定的行值 我是 jquery 的新手 任何人都可以帮助我提供示例代码 这将对我有很大帮助 提前致谢 请参阅这个 jsFiddle 片段 http jsfiddle net hU89p 它
  • Flutter:如何停止特定子项的图像过滤器(颜色过滤器/绘画过滤器)?

    我想将 ImageFilter 应用于 ListView 以便所有子项都会受到影响and所有孩子都会互相影响混合颜色 这就是为什么将过滤器应用于子视图而不是列表视图不起作用的原因 没关系 但现在我需要在这些先前绘制的小部件之上放置另一个小部
  • 如何向 Firefox 插件添加循环计时器?

    我正在尝试使用新的插件构建器预览 https builder addons mozilla org 创建一个插件 并且我需要一个大约每 10 分钟运行一次的函数 我尝试了 setInterval 和 setTimeout 但它们都返回以下错
  • JavaScript 中的 getElementsByTagName [重复]

    这个问题在这里已经有答案了 我对纯 JavaScript 的语法很陌生 你知道为什么 getElementsByTagName 在我的简单测试中不起作用吗 var btn document getElementsByTagName butt
  • 将带有日期的 stderr 从 Cron 重定向到日志文件

    bash 脚本从 cron 运行 stderr 被重定向到日志文件 这一切都工作正常 代码是 10 5 22 opt scripts sql fetch 2 gt gt opt scripts logfile txt 我想将日期添加到日志文
  • Java:CompletableFuture.supplyAsync() 不调用异步方法[重复]

    这个问题在这里已经有答案了 让我们假设以下主要方法 public class Async public static void main String args throws Exception CompletableFuture supp
  • java 强制 JTextField 仅为大写

    有没有办法强制所有用户输入JTextFieldJava 中要大写吗 一个完整的工作示例可能会帮助你 import java awt Dimension import java awt FlowLayout import javax swin
  • 抓取动态数据硒 - 无法定位元素

    我对抓取非常陌生 有一个问题 我正在抓取世界计量仪的新冠数据 因为它是动态的 我用硒来做 代码如下 from selenium import webdriver import time URL https www worldometers
  • 正则表达式:匹配除一个单词之外的所有内容[重复]

    这个问题在这里已经有答案了 我正在寻找一种正则表达式模式 它可以匹配除一个单词之外的所有内容 例如 决议 monitors resolutions Should not match monitors 34 Should match moni
  • 从 C 代码设置 ALSA 主音量

    我一直在寻找一个简单的 C 代码示例来设置 ALSA 混音器的主音量 但找不到任何简单的内容来完成这个所谓的常见操作 我对 ALSA 完全不熟悉 所以制作我自己的最小示例需要时间 如果有人能提供一个 我会很高兴 以下内容对我有用 参数体积应
  • PHP SQL 更新数组

    我最初对以下内容感到满意 以便将第 1 行和第 2 行更新为相同的值 status 1 if POST sql UPDATE table SET status 1 WHERE id IN 1 2 db gt query sql if db
  • 正则表达式在匹配链接行为时删除 - Python

    我想删除整个链接 https www linkedin com in ACoAAAJv1l4BATlBOVqhEEaqrVNojJPWnID9Nk0 当链接包含ACo正则表达式应该从我的模式中删除整个链接 regex2 re compile