Python 正则表达式从文本中提取域

2024-05-12

我有以下正则表达式：

r'(?:[a-zA-Z0-9](?:[a-zA-Z0-9\-]{,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}'

当我将其应用于文本字符串时，比方说， “这是 www.website1.com，这是 website2.com”，我得到：

['www.website1.com']

['website.com']

我如何修改正则表达式以排除'www'，这样我就得到'website1.com' and 'website2.com？我错过了一些非常基本的东西......

试试这个（感谢@SunDeep 的更新）：

\s(?:www.)?(\w+.com)

解释

\s匹配任何空白字符

(?:www.)?非捕获组，比赛www.0次或多次

(\w+.com)匹配任何单词字符一次或多次，后跟.com

并在行动中：

import re

s = 'this is www.website1.com and this is website2.com'

matches = re.findall(r'\s(?:www.)?(\w+.com)', s)
print(matches)

Output:

['website1.com', 'website2.com']

关于这一点有几点说明。首先，匹配所有有效域名是非常困难的，所以虽然我选择使用\w+为了捕捉这个例子，我可以选择类似的东西：[a-zA-Z0-9][a-zA-Z0-9-]{1,61}[a-zA-Z0-9]\.[a-zA-Z]{2,}.

这个答案有很多关于匹配域的有用信息：什么是匹配不带子域的有效域名的正则表达式？ https://stackoverflow.com/questions/10306690/what-is-a-regular-expression-which-will-match-a-valid-domain-name-without-a-subd

接下来我只寻找.com域，您可以将我的正则表达式调整为：

\s(?:www.)?(\w+.(com|org|net))

匹配您正在寻找的任何类型的域名。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

Python 正则表达式从文本中提取域的相关文章

函数名称未定义

我有一段代码看起来像这样 if name main main def main print hello 但是当我尝试运行此代码时出现错误 NameError 名称 main 未定义我是否没有在函数 def main 的第一行定义名称
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
学习Python中的解析器

我记得我读过有关解析器的内容您只需提供一些示例行它就知道如何解析某些文本它只是确定两条线之间的差异以了解可变部分是什么我以为它是用 python 写的但我不确定有谁知道那是什么图书馆吗可能你的意思是模板制作器 http co
我可以同时打开两个 Tkinter Windows 吗？

可以同时打开2个窗口吗 import tkinter as Tk import random import math root Tk Tk canvas Tk Canvas root background image Tk PhotoIma
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
Asyncio：从未检索到任务异常的怪异

假设我有一个简单的代码 import asyncio async def exc print 1 0 loop asyncio get event loop loop create task exc try loop run forever
matplotlib：渲染到缓冲区/访问像素数据

我想使用 matplotlib 生成的图作为 OpenGL 中的纹理到目前为止我遇到的 matplotlib 的 OpenGL 后端要么不成熟要么已经停止使用所以我想避免使用它们我当前的方法是将图形保存到临时 png 文件中并从
Pandas 中每列的曲线拟合 + 外推值

我有一个包含大约 300 列的数据集每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
机器学习的周期性数据（例如度角 -> 179 与 -179 相差 2）

我使用 Python 进行核密度估计并使用高斯混合模型对多维数据样本的可能性进行排名每一条数据都是一个角度我不确定如何处理机器学习的角度数据的周期性首先我通过添加 360 来删除所有负角因此所有负角都变成了正角 179 变成了
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲
列表中的特定范围（python）

我有一个从文本字符串中提取的整数列表因此当我打印该列表我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表例如1000 2000之间我尝试
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
如何在类型提示中定义元组或列表的大小

有没有办法在参数的类型提示中定义元组或列表的大小目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
python 中的 F 字符串前缀给出语法错误[重复]

这个问题在这里已经有答案了我有一个名为 method 的变量它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误我找不到它这样做的原因我正在使用 py
如何将Python包从旧版本安装到新版本？

我正在使用 python 3 7 最近在 Linux 中安装了 python 3 8 是否有任何 bash 命令或脚本可以获取 3 7 的所有软件包列表并在 3 8 版本中一一安装我想避免每个包裹都手工完成注意我将它们安装在我的系统中
正则表达式不匹配

我正在尝试以下代码 d byte x01 x00 x00 x00 x00 x00 x00 x00 x00 x00 x00 x80J x13 x80SQ x80L xe0 x80 x92 x80L x80H xe0 r regexp Must
Notepad++ 正则表达式代码提取行尾

我有一个需要捕获的源代码整个文件只有一行但我无法捕获我需要的数据 allow ok secret 4326dwsaddsafsd286435dsfs754 现在我需要捕获每次都会变化的数据 4326dwsaddsafsd286435ds
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

Symfony：为什么 isInitialized 总是 false？

我用教义查询了一个用户 customer this gt getDoctrine gt getRepository DemoUserBundle Customer gt find 1 但我得到了结果顾客 1441 已初始化错误的 ID
（如何）我可以抑制未找到包配置文件的警告吗？

我正在尝试创建一个CMakeLists txt尝试查找的文件Qt5 如果失败则尝试回退到Qt4安装该脚本到目前为止有效但如果出现以下情况我总会收到警告Qt5未安装注意FindQt5 cmake是由提供Qt5并且仅当以下情况时才可用Q
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
垂直子图的单一颜色条

我想让下面的 MATLAB 图有一个沿着两个子图延伸的颜色条像这样的事情使用图形编辑器手动完成 Note 这与提出的问题不同here https stackoverflow com questions 39950229 matlab t
会话亲和性和粘性会话之间的区别？

有什么区别会话关联性 and 粘性会话在负载平衡服务器的上下文中我见过这些术语可以互换使用但有不同的实现方式在第一个响应中发送 cookie 然后在后续响应中查找它 cookie 表明要发送到哪个真实服务器 Bad如果您必须支持无 c
找不到“C:\Microsoft.Cpp.Default.props”

我在 Visual Studio 2013 中创建了一个项目项目文件具有以下属性工具版本 12 0 平台工具集 v120 我安装了 Visual Studio 2013 和 Microsoft Build Tools 2015 该项目使
如何命名一段代码并在不同的方法中调用它？

我使用 Grand Central Dispatch 方法在队列中执行我的应用程序我在该队列的计算中决定按钮的框架我希望我的应用程序重新绘制其屏幕并计算旋转后的新帧这是我所做的一些伪代码解释 CGFloat a 123 b 24 di
使用 Laravel Fluent 查询生成器从多个表中进行选择

我正在重写一些 PHP MySQL 来与 Laravel 一起使用我想做的一件事是使数据库查询更加简洁使用 Fluent 查询生成器 http laravel com docs database fluent但我有点迷失 SELECT p
如何使用 Spring MVC 和 Thymeleaf 添加静态文件

我的问题是如何添加 CSS 和图像文件等静态文件以便我可以使用它们我正在使用 Spring MVC 和 Thymeleaf 我查看了有关此主题的各种帖子但它们对我没有帮助所以我才来问根据这些帖子我将 CSS 和图像文件放在res
如何在 .htaccess 文件中创建一个包罗万象的处理程序？

我想在 htaccess 文件末尾创建一条规则捕获在此之前未能匹配的所有内容我怎样才能做到这一点附我已经尝试过一切实际上我没有但看起来确实如此 Update 有些人的回复是RewriteRule 或同等内容这不行它将匹配一
MUI v5：系统属性样式与 sx prop 之间是否存在性能差异？

The 从 v4 迁移到 v5 https mui com guides migration v4 box指南指出 The Box系统 props 在 v5 中有一个可选的替代 API 使用sx支柱你可以阅读本节 https mui co
将原生 Twilio Android SDK 与 Flutter 集成

我正在尝试使用 flutter 创建 IP 语音 VOIP 移动应用程序我还没有看到 twilio 语音 api 的 flutter 插件的实现所以我使用 MethodChannel 将我的应用程序与本机 android 语音 api
中间件 API 的最佳实践是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我们正在开发一个中间件 SDK 采用 C 和 Java 语言供游戏开发人员动画软件开发人员阿凡达开
如何在多字段中使用富文本（在 CQ5 对话框中）？（防止“this.el.dom未定义”错误）

我创建了一个自定义组件并尝试使用 RTE xtype richtext 在我的对话框中的多文件中现在当我尝试删除项目时或者在关闭并重新打开对话框后添加另一个项目时该对话框既不会关闭也不会使用确定按钮保存数据对话框 xml
Jquery：排除元素

我有以下代码 document ready function a rel each function this qtip content text img class middle src i icon processing gif alt
使用 Xcode 6 和（可能）cocoapods 生成错误

在构建使用 cocoapods 和最新 Xcode 6 GM 版本的 iOS 项目时我收到以下静态分析器错误 error error reading pic error no analyzer checkers are associate
如何使用 JavaScript 压缩文件？

有没有办法使用 JavaScript 来压缩文件例如在雅虎邮件中当您选择下载电子邮件中的所有附件时它会被压缩并下载到单个 zip 文件中 JavaScript 能够做到这一点吗如果是这样请提供一个编码示例我发现这个图书馆叫js
git-svn --忽略路径

我现在在 git svn 的 ignore paths 选项上挣扎了几个小时试图从大型存储库中仅获取某些标签我想在 dev 处开始获取看起来像 gt svn ls http 192 168 0 2 svn repo corporati
SwiftUI ScrollView 只向一个方向滚动

尝试使用视图作为列表行样式来创建自定义列表以摆脱默认情况下列表中难看的分隔线但是一旦我将 ZStack 行放入滚动视图中滚动视图就会在两个方向上滚动而不仅仅是垂直滚动这是内容视图 NavigationView ScrollVie
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we

Python 正则表达式从文本中提取域

Python 正则表达式从文本中提取域 的相关文章

随机推荐

热门标签

Python 正则表达式从文本中提取域的相关文章