Python urlparse——提取不带子域的域名

2024-01-29

需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法。

例如我想提取"google.com"来自完整的网址，例如"http://www.google.com".

我能想到的最接近的urlparse is the netloc属性，但包括子域，在本例中为www.google.com.

我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com，但我想在此任务中避免手动字符串转换或正则表达式。（原因是我对 url 形成规则不够熟悉，无法确信我可以考虑编写自定义解析函数所需的每个边缘情况。）

Or, if urlparse不能做我需要的事情，有谁知道任何其他 Python url 解析库可以吗？

您可能想查看提取物 http://pypi.python.org/pypi/tldextract，一个专为做这种事情而设计的图书馆。

它使用公共后缀列表来尝试根据已知的 gTLD 进行适当的分割，但请注意，这只是一个强力列表，没有什么特别的，因此它可能会过时（尽管希望它经过精心策划，以免）。

>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')

所以在你的情况下：

>>> extracted = tldextract.extract('http://www.google.com')
>>> "{}.{}".format(extracted.domain, extracted.suffix)
"google.com"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

URL

urlparse

Python urlparse——提取不带子域的域名的相关文章

为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
合并 url 中的 2 个输入值

我有这样的形式
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street

随机推荐

C# 如何判断ArrayList是否包含具有某种属性的对象

我有一个自定义类的对象的 ArrayList 我想知道 ArrayList 是否包含具有某些属性的对象我不关心对象只要有的话是的我可以用 foreach 循环来做到这一点但我想知道是否有更优雅的方法来做到这一点感谢您的建议好吧
从代码构建 Visual Studio 解决方案

我正在编写一个控制台应用程序以从 tfs 服务器获取解决方案构建它并在 iis 上发布但我一直在构建我找到了这段代码它的作用就像一个魅力 public static void BuildProject string solutio
调试 ASP.NET 应用程序时，如何在 Firefox 关闭时结束调试会话？

我将把 Mozilla Firefox 设置为 net 应用程序的默认 Web 浏览器问题是即使我关闭浏览器窗口应用程序仍保持运行模式和IE不太一样由于某些原因我必须使用 Fire Fox 而不是 IE 当 Firefox 窗口关闭
Maven archetype 插件不允许 archetype-resources 中的 .resources 通过

我怎样才能制作这样的资源 gitignore成为最终项目的一部分创建原型archetype resources gitignore mvn install mvn archetype generate 生成的项目不包含 gitignore
scrapy项目加载器返回列表不是单个值

我正在使用 scrapy 0 20 我想使用项目加载器这是我的代码 l XPathItemLoader item MyItemClass response response l add value url response url l a
无法从我的协议类调用委托方法

我在一类中有一个协议 protocol DataStorageManager void saveFile end interface DataManager NSObject id
Boot 3 升级后错误响应正文发生更改

我的项目中有以下控制器端点 GetMapping value id public FooDto findOne PathVariable Long id Foo model fooService findById id orElseThro
ImageFont 检测丢失的字形（Python Pillow）[重复]

这个问题在这里已经有答案了这是一个简短的example http pillow readthedocs io en 3 1 x reference ImageFont html from PIL import ImageFont Imag
如何处理 Node.js 中的“read ETIMEDOUT”？

我有一个使用 Node js 的发布订阅模型将数据从一个客户端传输到另一个客户端此外服务器还记录收到的所有内容并将其发送给新客户端但是某些数据在传输时损坏并且出现如下错误 Error with socket Error writ
R中的快速并行二分距离计算

使用并行 Rcpp 后端计算 R 中二分距离最快的方法是什么 parallelDist是一个很棒的包带有 cpp 后端并支持多线程但不支持二分距离计算据我所知 Using parallelDist 用于二分距离矩阵计算除了 m1 m
从 C# 在现有 IE 窗口的选项卡中启动 URL

当 browserExe 指向 Firefox Safari 或 Chrome 时以下代码将在现有浏览器窗口中打开链接当指向 IEXPLORE EXE IE7 时将打开一个新窗口 ProcessStartInfo pi new Pro
如何在 Visual Studio Code 中禁用 PHP 验证？

在 Windows 版本的 Visual Studio Code 版本 0 10 1 中打开任何 PHP 文件时我收到消息无法验证 php 文件没有找到php程序使用 php validate executablePath 设置来配
在 PHP7 中本机分析多个脚本

自 PHP 7 发布以来现在不可能使用以下命令来分析整个脚本选择declare ticks 1 在你的基本文件中然后使用register tick function 监视每个刻度因为它不再遵循包含路径根据提交的 PHP 错误http
如何解决.NET Core包版本冲突

我正在从 NET MVC 5 Web 应用程序迁移到 NET Core 2 2 Web API 项目以及五个 NET Standard 2 0 项目所有项目都托管在一个解决方案下我现在收到 28 个关于包冲突的警告 MSB3277 这些
如何更改geom_point中的颜色或ggplot中的线条[重复]

这个问题在这里已经有答案了我有一个这样的数据 data lt structure list sample structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 2L 2L 2L 2L 2L 2L 2L 2L
重载或可选参数之间的性能差异？

我想知道是否应该在 C 中使用可选参数到目前为止我总是重载方法但可选参数也很好更干净代码更少我在其他语言中使用它们所以我在某种程度上也习惯了它们有什么反对使用它们的吗性能对我来说是第一个关键点会掉吗 Example co
如何保存 raphael 生成的 svg

有没有办法将 raphael 生成的 SVG 保存为 svg 文件请注意它只需要在 Chrome 中工作我想出了一个解决方案拉斐尔导出 https github com ElbertF Raphael Export 它给了我一个有效的
更新已部署的 SSIS 包

我有一个已部署的 SSIS 包其中包含时间表和所有内容现在我对这个包进行了更改我是否必须重新部署它并再次为其设置计划或者是否有办法让已部署的 SSIS 包更新为最新版本是的您需要将包重新部署到调度程序期望找到包的任何位置但
在 Tensorflow 2 中将梯度可视化为热图

我正在研究通过引导反向传播生成热图的任务我重写了原来的Relu并获得了每个参数的梯度但是我不确定下一步应该做什么感谢您的帮助谢谢你这是我的代码我首先使用 tf RegisterGradient GuidedRelu like
Python urlparse——提取不带子域的域名

需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法例如我想提取 google com 来自完整的网址例如 http www google com 我能想到的最接近的urlparse is the net

Python urlparse——提取不带子域的域名

Python urlparse——提取不带子域的域名 的相关文章

随机推荐

热门标签

Python urlparse——提取不带子域的域名的相关文章