Python urlparse——提取不带子域的域名

2024-01-29

需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法。

例如我想提取"google.com"来自完整的网址,例如"http://www.google.com".

我能想到的最接近的urlparse is the netloc属性,但包括子域,在本例中为www.google.com.

我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com,但我想在此任务中避免手动字符串转换或正则表达式。 (原因是我对 url 形成规则不够熟悉,无法确信我可以考虑编写自定义解析函数所需的每个边缘情况。)

Or, if urlparse不能做我需要的事情,有谁知道任何其他 Python url 解析库可以吗?


您可能想查看提取物 http://pypi.python.org/pypi/tldextract,一个专为做这种事情而设计的图书馆。

它使用公共后缀列表来尝试根据已知的 gTLD 进行适当的分割,但请注意,这只是一个强力列表,没有什么特别的,因此它可能会过时(尽管希望它经过精心策划,以免)。

>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')

所以在你的情况下:

>>> extracted = tldextract.extract('http://www.google.com')
>>> "{}.{}".format(extracted.domain, extracted.suffix)
"google.com"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python urlparse——提取不带子域的域名 的相关文章

随机推荐

  • C# 如何判断ArrayList是否包含具有某种属性的对象

    我有一个自定义类的对象的 ArrayList 我想知道 ArrayList 是否包含具有某些属性的对象 我不关心对象 只要有的话 是的 我可以用 foreach 循环来做到这一点 但我想知道是否有更优雅的方法来做到这一点 感谢您的建议 好吧
  • 从代码构建 Visual Studio 解决方案

    我正在编写一个控制台应用程序 以从 tfs 服务器获取解决方案 构建它并在 iis 上发布 但我一直在构建 我找到了这段代码 它的作用就像一个魅力 public static void BuildProject string solutio
  • 调试 ASP.NET 应用程序时,如何在 Firefox 关闭时结束调试会话?

    我将把 Mozilla Firefox 设置为 net 应用程序的默认 Web 浏览器 问题是即使我关闭浏览器窗口 应用程序仍保持运行模式 和IE不太一样 由于某些原因我必须使用 Fire Fox 而不是 IE 当 Firefox 窗口关闭
  • Maven archetype 插件不允许 archetype-resources 中的 .resources 通过

    我怎样才能制作这样的资源 gitignore成为最终项目的一部分 创建原型archetype resources gitignore mvn install mvn archetype generate 生成的项目不包含 gitignore
  • scrapy项目加载器返回列表不是单个值

    我正在使用 scrapy 0 20 我想使用项目加载器 这是我的代码 l XPathItemLoader item MyItemClass response response l add value url response url l a
  • 无法从我的协议类调用委托方法

    我在一类中有一个协议 protocol DataStorageManager void saveFile end interface DataManager NSObject id
  • Boot 3 升级后错误响应正文发生更改

    我的项目中有以下控制器端点 GetMapping value id public FooDto findOne PathVariable Long id Foo model fooService findById id orElseThro
  • ImageFont 检测丢失的字形(Python Pillow)[重复]

    这个问题在这里已经有答案了 这是一个简短的example http pillow readthedocs io en 3 1 x reference ImageFont html from PIL import ImageFont Imag
  • 如何处理 Node.js 中的“read ETIMEDOUT”?

    我有一个使用 Node js 的发布 订阅模型将数据从一个客户端传输到另一个客户端 此外 服务器还记录收到的所有内容并将其发送给新客户端 但是 某些数据在传输时损坏 并且出现如下错误 Error with socket Error writ
  • R中的快速并行二分距离计算

    使用并行 Rcpp 后端计算 R 中二分距离最快的方法是什么 parallelDist是一个很棒的包 带有 cpp 后端并支持多线程 但不支持二分距离计算 据我所知 Using parallelDist 用于二分距离矩阵计算 除了 m1 m
  • 从 C# 在现有 IE 窗口的选项卡中启动 URL

    当 browserExe 指向 Firefox Safari 或 Chrome 时 以下代码将在现有浏览器窗口中打开链接 当指向 IEXPLORE EXE IE7 时 将打开一个新窗口 ProcessStartInfo pi new Pro
  • 如何在 Visual Studio Code 中禁用 PHP 验证?

    在 Windows 版本的 Visual Studio Code 版本 0 10 1 中打开任何 PHP 文件时 我收到消息 无法验证 php 文件 没有找到php程序 使用 php validate executablePath 设置来配
  • 在 PHP7 中本机分析多个脚本

    自 PHP 7 发布以来 现在不可能使用以下命令来分析整个脚本选择declare ticks 1 在你的基本文件中 然后使用register tick function 监视每个刻度 因为它不再遵循包含路径 根据提交的 PHP 错误http
  • 如何解决.NET Core包版本冲突

    我正在从 NET MVC 5 Web 应用程序迁移到 NET Core 2 2 Web API 项目以及五个 NET Standard 2 0 项目 所有项目都托管在一个解决方案下 我现在收到 28 个关于包冲突的警告 MSB3277 这些
  • 如何更改geom_point中的颜色或ggplot中的线条[重复]

    这个问题在这里已经有答案了 我有一个这样的数据 data lt structure list sample structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 2L 2L 2L 2L 2L 2L 2L 2L
  • 重载或可选参数之间的性能差异?

    我想知道是否应该在 C 中使用可选参数 到目前为止 我总是重载方法 但可选参数也很好 更干净 代码更少 我在其他语言中使用它们 所以我在某种程度上也习惯了它们 有什么反对使用它们的吗 性能对我来说是第一个关键点 会掉吗 Example co
  • 如何保存 raphael 生成的 svg

    有没有办法将 raphael 生成的 SVG 保存为 svg 文件 请注意 它只需要在 Chrome 中工作 我想出了一个解决方案拉斐尔导出 https github com ElbertF Raphael Export 它给了我一个有效的
  • 更新已部署的 SSIS 包

    我有一个已部署的 SSIS 包 其中包含时间表和所有内容 现在 我对这个包进行了更改 我是否必须重新部署它 并再次为其设置计划 或者是否有办法让已部署的 SSIS 包更新为最新版本 是的 您需要将包重新部署到调度程序期望找到包的任何位置 但
  • 在 Tensorflow 2 中将梯度可视化为热图

    我正在研究通过引导反向传播生成热图的任务 我重写了原来的Relu并获得了每个参数的梯度 但是 我不确定下一步应该做什么 感谢您的帮助 谢谢你 这是我的代码 我首先使用 tf RegisterGradient GuidedRelu like
  • Python urlparse——提取不带子域的域名

    需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法 例如我想提取 google com 来自完整的网址 例如 http www google com 我能想到的最接近的urlparse is the net