从 R 中的 url 返回根域

2024-01-07

给定网站地址，例如

http://www.example.com/page1/#
https://subdomain.example2.co.uk/asdf?retrieve=2

如何返回根域R, e.g.

example.com
example2.co.uk

出于我的目的，我将定义根域以具有结构

example_name.public_suffix

其中 example_name 不包括“www”，并且 public_suffix 位于此处的列表中：

https://publicsuffix.org/list/ effective_tld_names.dat https://publicsuffix.org/list/effective_tld_names.dat

这仍然是最好的基于正则表达式的解决方案吗：

https://stackoverflow.com/a/8498629/2109289 https://stackoverflow.com/a/8498629/2109289

里面的东西怎么样R根据公共后缀列表解析根域，例如：

http://simonecarletti.com/code/publicsuffix/ http://simonecarletti.com/code/publicsuffix/

编辑：根据理查德的评论添加额外信息

Using XML::parseURI似乎返回第一个“//”和“/”之间的内容。例如

> parseURI("http://www.blog.omegahat.org:8080/RCurl/index.html")$server
[1] "www.blog.omegahat.org"

因此，问题归结为有一个R可以从 URI 返回公共后缀的函数，或者在公共后缀列表上实现以下算法：

Algorithm

将域与所有规则进行匹配并记下匹配的规则。
如果没有匹配的规则，则优先规则为“*”。
如果有多个规则匹配，则优先规则是例外规则。
如果没有匹配的例外规则，则优先规则是标签最多的规则。
如果现行规则是例外规则，请通过删除最左边的标签来修改它。
公共后缀是来自域的一组标签，它们直接与现行规则的标签匹配（用点连接）。
已注册或可注册domain是公共后缀加上一个附加标签。

这里有两个任务。第一个是解析 URL 以获取主机名，这可以通过httr http://cran.r-project.org/web/packages/httr/index.html包的parse_url功能：

host <- parse_url("https://subdomain.example2.co.uk/asdf?retrieve=2")$hostname
host
# [1] "subdomain.example2.co.uk"

第二个是提取组织域（或根域、顶级私有域——无论你怎么称呼它）。这可以使用以下方法完成提取物 https://github.com/jayjacobs/tldextract包（受到同名Python包的启发，并使用Mozilla的公共后缀列表）：

domain.info <- tldextract(host)
domain.info
#                       host subdomain   domain   tld
# 1 subdomain.example2.co.uk subdomain example2 co.uk

tldextract返回一个数据框，其中包含您提供的每个域的一行，但您可以轻松地将相关部分粘贴在一起：

paste(domain.info$domain, domain.info$tld, sep=".")
# [1] "example2.co.uk"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 R 中的 url 返回根域的相关文章

如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
R 中的龙卷风图

我正在尝试在 R 中绘制龙卷风图又名敏感性图目标是可视化某些变量增加 10 和减少 10 的效果到目前为止我已经得到这个结果这是我正在使用的代码 Tornado plot data lt matrix c 0 02 0 02 0 0
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d
如何使用 xpath 检查某个对象在网页中是否可见？

我正在 R 中使用 RSelenium 包来进行网络抓取有时加载网页后需要检查某个对象在网页中是否可见例如 library RSelenium open a browser RSelenium startServer remDr lt
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

如何将 Graphics2D 中的图形基元捕获到 SVG 中

我需要从对 java awt Graphics2D 的调用中捕获图形基元这些调用是通过开源工具包 Apache 的 PDFBox 进行的通常在 JPanel 中呈现我想拦截这些调用并将它们转换为 SVG 以便我可以构建非图形数据模型
StringContext 和宏：一个简单的示例

我正在努力实现一个StringContext扩展名允许我这样写 val tz zone Europe London tz is of type java util TimeZone 但附加的警告是如果提供的时区无效它应该无法编译假设可以
在 Visual Studio 中运行 (F5) 时生成后事件？

我在 Visual Studio 2010 中设置了一个构建后事件我遇到的问题是当我使用运行 F5 开始调试时该事件不会运行它似乎只有在我显式构建 F6 即使源文件已更改这种情况似乎也会发生因此必须构建才能运行是否有控制此
web.xml 和 jboss-web.xml 中对 SystemProperties 的引用在 JBoss5 中有效，但在 JBoss7 中无效

在 JBoss 5 1 下我们使用 SystemProperties 在 web xml 和 jboss web xml 中暂存值在 web xml 中如下所示
如何使用 Webdatarocks 获取列的总计并在图表中使用它

我正在使用 Webdatarocks 数据透视表我在网格底部得到 GrandTotal 我想在图表中使用这个 Grand Total 我检查了社区但无法找到可以为我提供 GrandTotal 价值的适当函数我检查了文档中的函数如 g
Windows Azure 中来自 PHP 的电子邮件 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何在 Windows Azure
php、postgresql、mysql

我被困在一个查询中我不知道到底是什么问题任何人都可以帮助我吗这是代码当我运行查询时它抛出错误错误关系 CONTRACTORS 不存在第 5 行来自承包商 select cont name cont total cp co
从全局程序集缓存中删除 Oracle Data Provider for .NET

我最近安装了适用于 Visual Studio 的 Oracle 开发人员工具现在当我打开 Visual Studio 时出现此错误其他人可以向我解释一下如何消除此消息吗微软视觉工作室 Oracle Data Provider f
如何检测是否使用 rake 指定了 --quiet 选项

如何检测是否使用 rake 指定了 quiet 选项目的是根据类别过滤自定义消息 class Category INFO 1 WARNING 2 ERROR 3 end trace true task silent do trace fa
错误消息：h5py.h5py_warnings.H5pyDeprecationWarning：dataset.value 已被弃用。使用数据集[()]代替

我正在尝试跑步mbin https mbin readthedocs io en latest readme html用于甲基化分析但得到错误信息 h5py h5py warnings H5pyDeprecationWarning dat
XSL，获取当前工作目录

我正在寻找将当前工作目录存储到变量中的 XSL 样式表的具体示例我需要这个因为在我的情况下我需要使用相对路径导入某些库样式表知道我的处理器选择作为当前目录的路径就足够了 EDIT 请不要指定任何供应商在 XSLT 2 0 中可以
Python 中的密集 Cholesky 更新

谁能向我指出一个库代码允许我对 python numpy 中的 Cholesky 分解执行低等级更新 Matlab 以名为 cholupdate 的函数形式提供此功能 LINPACK 也具有此功能但据我所知尚未移植到 LAPACK
为什么需要转发返回值

In the doc https en cppreference com w cpp utility forward of std forward 它给出了以下示例 template
Python：一个存储库中有多个包还是每个存储库一个包？

我有一个大型 Python 3 7 项目目前正在将其拆分为多个可以单独安装的包我最初的想法是拥有一个包含多个包的 Git 存储库每个包都有自己的 setup py 然而在 Google 上进行一些研究时我发现人们建议每个包一个存储
Golang：调用Windows DLL函数

我正在编写一个调用 Windows DLL 的 Go 应用程序该 DLL 是用 MSVC 编写的并使用 declspec dllexport 进行外部 C 导出我的Go应用程序的顶部如下所示 cgo CFLAGS IC Repos M
无法使 LazyForeignCollection 成为渴望集合

当我尝试从 POJO 读取外部集合时出现此错误 AndroidRuntime 589 Caused by java lang IllegalStateException Internal DAO object is null Lazy c
neo4j cypher 嵌套收集

想象一个包含用户相册和照片的相册架构 User owns gt Album contains gt Photo 我可以进行嵌套收集以获取嵌套在相册中的照片和嵌套在用户中的相册吗我想要类似的结果 users name roger dodg
为什么我收到警告“此构建使用了过时的 Gradle 函数，这使得它与 Gradle 8.0 不兼容”。？

当与警告模式所有关键我得到以下信息 The JavaExec main property has been deprecated This is scheduled to be removed in Gradle 8 0 Please
关于 WPF 3.5 中的窗口或关于框 (VS2008)

我正在寻找关于 WPF VS2008 的窗口任何源代码都可以下载或者必须自己开发感谢您戒日你可以尝试这个WPF 关于框 CS http visualstudiogallery msdn microsoft com 040c0484
从 R 中的 url 返回根域

给定网站地址例如 http www example com page1 https subdomain example2 co uk asdf retrieve 2 如何返回根域R e g example com example2 co

从 R 中的 url 返回根域

编辑：根据理查德的评论添加额外信息

从 R 中的 url 返回根域 的相关文章

随机推荐

热门标签

从 R 中的 url 返回根域的相关文章