如何从Python中的URL获取域名(名称+TLD)

2023-12-03

我想从格式可能不同的 URL 列表中提取域名(网站名称 + TLD)。 例如: 当前状态---->我想要什么

mail.yahoo.com------> yahoo.com
account.hotmail.co.uk---->hotmail.co.uk
x.it--->x.it
google.mail.com---> google.com

是否有任何 python 代码可以帮助我从 URL 中提取我想要的内容,或者我应该手动执行?


这有点不简单,因为没有简单的规则来确定什么构成有效的公共后缀(站点名称 + TLD)。相反,公共后缀的构成是作为 PublicSuffix.org 上的列表进行维护.

存在一个 python 包来查询该列表(本地存储);它被称为publicsuffix:

>>> from publicsuffix import PublicSuffixList
>>> psl = PublicSuffixList()
>>> print psl.get_public_suffix('mail.yahoo.com')
yahoo.com
>>> print psl.get_public_suffix('account.hotmail.co.uk')
hotmail.co.uk
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从Python中的URL获取域名(名称+TLD) 的相关文章

随机推荐