在 R 中查找特殊字符的第三次出现并删除之前的所有内容

2024-03-18

我有这个包含 URL 的示例向量。我的目标是获取URL的路径。

sample1 <- c("http://tercihblog.com/indirisu/docugard/", "http://funerariagomez.com/js/ggogle/a201209e3f79b740337b7bdb521630fe/", 
      "http://www.t-online.de/contacts/2015/08/atlas.html/", "http://mgracetimber.ie/wp-content/themes/Banner/db/box/", 
      "http://zamartrade.com/cs/DHL/DHL%20_%20Tracking.htm/", "http://dunhamengineering.com/menu/Auto-loadgoogleDrive/Document.Index/", 
      "http://www.indiegogo.com/guide/forum/2014/09/forgot-password/", 
      "http://raetc.com/wp-admin/Service/clients/votre-compte/en-ligne/imp-rem.fr/", 
      "http://www.lidanhang.com/img/?https://secure.runescape.com/m=weblogin/loginform.ws?mod=www&amp;hwjklxlamp;ssl=0&amp;dest/", 
      "http://www.sudaener.com/wp-includes/js/crop/dropbox/", "https://zeustracker.abuse.ch/blocklist.php/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=hostsdeny/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=iptablesblocklist/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=snort/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=squiddomain/"
    )

我最初的尝试是这样的：

gsub('http://[^/]+/','/',sample1)

然而，这不适用于具有https://。一个合适的解决方案是在第三次出现之前删除所有内容"/"。我想知道如何使用regex来做到这一点，如果有办法做到这一点，使用substring.

Thanks

确实建议搭配gsub在这里，因为代码更干净、更简单。

如果你想在第三个之前删除所有/, use

> gsub('^(?:[^/]*/){3}','/',sample1)
 [1] "/indirisu/docugard/"                                                                              
 [2] "/js/ggogle/a201209e3f79b740337b7bdb521630fe/"                                                     
 [3] "/contacts/2015/08/atlas.html/"                                                                    
 [4] "/wp-content/themes/Banner/db/box/"                                                                
 [5] "/cs/DHL/DHL%20_%20Tracking.htm/"                                                                  
 [6] "/menu/Auto-loadgoogleDrive/Document.Index/"                                                       
 [7] "/guide/forum/2014/09/forgot-password/"                                                            
 [8] "/wp-admin/Service/clients/votre-compte/en-ligne/imp-rem.fr/"                                      
 [9] "/img/?https://secure.runescape.com/m=weblogin/loginform.ws?mod=www&amp;hwjklxlamp;ssl=0&amp;dest/"
[10] "/wp-includes/js/crop/dropbox/"                                                                    
[11] "/blocklist.php/"                                                                                  
[12] "/blocklist.php?download=hostsdeny/"                                                               
[13] "/blocklist.php?download=iptablesblocklist/"                                                       
[14] "/blocklist.php?download=snort/"                                                                   
[15] "/blocklist.php?download=squiddomain/"

The ^(?:[^/]*/){3}火柴：

^- 字符串的开头
(?:[^/]*/){3} - exactly 3 occurrences of:
- [^/]*- 零个或多个字符以外的字符/
- /- 字面意思/特点。

凯丝建议 https://stackoverflow.com/questions/35088337/find-third-occurrence-of-a-special-character-and-drop-everything-before-that-in/35089430#comment57898551_35088337更精确的正则表达式修复，但也许您想添加^at the start 仅匹配字符串的开头：

gsub('^https?://[^/]+/','/',sample1)
      ^     ^

The ?（贪婪）量词意味着出现 1 次或零次，从而使得s after http选修的。它与（但比）相同gsub('^(https|http)://[^/]+/','/',sample1).

您可能还想让您的正则表达式不区分大小写，添加ignore.case = TRUE.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

Substring

在 R 中查找特殊字符的第三次出现并删除之前的所有内容的相关文章

R randomForest - 如何使用“getTree”树进行预测

背景我可以在 R 中创建一个随机森林 set seed 1 library randomForest data iris model rf lt randomForest Species data iris importance TRUE
perl生成字符串来匹配正则表达式

我尝试找到一种方法来生成与正则表达式匹配的字符串例如以下正则表达式 A Z 6 6 A Z2 9 A NP Z0 9 A Z0 9 3 3 0 1 我尝试过 Cpan 上的一些 perl 模块不起作用 gt 字符串随机 gt 正则表达式
如何绘制多面直方图（不是条形图）以及相对于每个面的百分比？

虽然有几篇关于如何在条形图的每个方面使用缩放百分比的帖子但我没有看到任何帖子显示如何在直方图中执行此操作可以这样做吗这是我研究过的两篇文章所以帖子1 使用 ggplot2 获取反映各个方面的百分比比例 https stackover
将问号 (?) 替换为 (\\?)

我正在尝试定义一个模式来匹配文本中带有问号的文本在正则表达式中问号被认为是一次或根本不那么我可以用替换文本中的符号来解决模式问题吗 String text aaa aspx pubid 222 zzz Pattern p Pa
如何在 OSX 上使用多线程安装 XGBoost

我正在尝试按照指南在我的 mac osx 10 12 1 上安装 xgboosthere http xgboost readthedocs io en latest build html building on osx但我遇到了一些问题 S
== 在 R 中，精度为 .Machine$double.eps [重复]

这个问题在这里已经有答案了在 R 中我发现必须转换易于阅读的代码有点烦人例如 if det A 1 not always working because of floating point precision to if abs de
大数据集每两列的平均值

如下所示我有一个大型数据集其中按列组织了 12 小时的温度我希望取每日平均值即一次平均两列直到数据集结束有人可以指出我一个简单解决方案的方向吗我知道这可能非常简单但我找不到任何现有的解决方案 01 01 2000 00 00
在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2
如何绘制两个 ggplot 密度分布之间的差异？

我想使用 ggplot2 来说明两个相似密度分布之间的差异这是我拥有的数据类型的玩具示例 library ggplot2 Make toy data n sp lt 100000 n dup lt 50000 D lt data fram
循环更改多个数据帧

例如我有这三个数据集就我而言它们更多并且有很多变量 data frame1 lt data frame a c 1 5 3 3 2 b c 3 6 1 5 5 c c 4 4 1 9 2 data frame2 lt data fra
用整数矩阵对 data.frame 进行子集化

我一直遇到这个问题想知道是否有一个简单的解决方法对于某些情况我发现考虑将矩阵子集化更合乎逻辑 N lt 12 N NA lt 6 dat lt data frame V1 runif N V2 runif N sel mat lt m
R - 如何为一个图例元素组合 expression()、paste() 和 formatC() 命令？

我正在努力创造一个美好的传奇它应该包含希腊字母 mu 我可以使用表达式一些文字即和 mm 以及使用 formatC 格式化的模型系数来完成此操作我运行没有问题的是要么没有希腊字母然后我可以使用简单的粘贴命令 leg txt lt
如何使用 R / igraph 设置边缘颜色和顶点间距

我是 R 新手试图弄清楚如何为我有数据的系统制作社交网络地图我已经设法从常见问题解答和教程中弄清楚我想做的大部分事情但我被困在两件事上如何使画布更大图表间隔更大现在已经太挤了目前边缘厚度是根据重量设置的权重代表不同的状态
PCA 图中带有名称的工具提示

我想用 ggplotly 生成交互式绘图工具提示应该显示变量的名称 interactive lt ggplotly pca dynamicTicks T tooltip c x y label list pca 是 PCA 的可视化 su
正则表达式的替代（流畅？）界面设计

我刚刚看到了一个巨大的 Java 正则表达式这让我对正则表达式的一般可维护性进行了一些思考我相信大多数人除了一些糟糕的 Perl 贩子都会同意正则表达式很难维护我正在考虑如何解决这种情况到目前为止我最有希望的想法是使用流畅的界
与 data.table 合并时防止重复列

我有两个数据表它们的列名部分相似 dfA lt read table text A B C D E F G iso year matchcode 1 0 1 1 1 0 1 0 NLD 2010 NLD2010 2 1 0 0 0 1 0
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
字符串中unicode字符的正则表达式

我正在使用 C 进行一些 OCR 工作并提取了我需要使用的文本现在我需要使用正则表达式解析一行 string checkNum string routingNum string accountNum Regex regEx new Re
更改列的顺序

我正在处理一个包含 gt 40 列的大型数据框我希望能够移动列而不必指定所有列名称例如 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 Labels lt c Cat D
Python正则表达式：如何用不同的值替换出现的每个实例？

假设我有这个字符串 s blah blah blah 使用Python正则表达式如何用不同的值替换 blah 的每个实例例如我有一个值列表v 1 2 3 你可以使用re sub打回来 http docs python org libr

随机推荐

Haskell：针对 Hackage 的多个版本的基础测试包

我正在尝试将我的第一个包上传到 Hackage 耶但出现以下错误依赖项 build depends base 未指定版本号的上限基础包的每个主要版本都会以各种方式更改 API 并且大多数包都需要进行一些更改才能与其一起编译推荐的做
Flutter更新BottomNavigationBar

我将 BottomNavigationBar 与 TabController 一起使用通过单击 BottomNavigationBar 的不同选项卡 TabView 会更改内容但是如果我在 TabView 上滑动以切换到另一个视图选
如何使用 C# xaml 以编程方式设置数据绑定

如何以编程方式设置 DataContext 并在 C Xaml 中创建数据绑定给定一个类 class Boat INotifyPropertyChanged public event PropertyChangedEventHandler
npm 错误！网络 getaddrinfo ENOTFOUND

我正进入状态npm ERR network getaddrinfo ENOTFOUND尝试使用 NPM 安装任何包时出错我知道有很多关于同一问题的线程但我找不到任何可以帮助我的线程我已经设置了代理我认为这与代理设置不正确没有使用
将 pandas.DataFrame 添加到现有 Excel 文件

我有一个网络抓取工具可以为本月的抓取创建一个 Excel 文件我想在每次运行时将今天的刮擦和该月的每次刮擦添加到该文件中作为新工作表然而我的问题是它仅用新工作表覆盖现有工作表而不是将其添加为单独的新工作表我尝试使用 xlrd
Hibernate 延迟加载问题

我在 Hibernate 5 中映射了这个实体 class A private String code private B child LazyToOne LazyToOneOption PROXY ManyToOne fetch Fetc
在不使用cocoapods的情况下向现有项目添加框架

我有一个现有项目我想在其中添加名为 CoreActionSheetPicker 的框架 https github com skywinder ActionSheetPicker 3 0 问题是我似乎无法将框架添加到我的项目中当我将框架拉
如何在 Java 中生成没有按键代码的键盘事件？

我使用 Robot 类和 KeyEvent 按键代码来生成所有其他按键事件它们工作正常但我还需要 Hangul 键切换韩语键盘显然 KeyEvent 没有这个键的键码所以我被卡住了有没有办法生成这个韩文键事件有没有办法使用 W
Angular2：使用 DynamicComponentLoader 动态插入组件上的双向数据绑定

我正在开发 Angular2 应用程序遇到一个问题我有一组可以使用 UI 选择的不同对象每个对象都有一组可以使用 UI 进行编辑的选项不同对象不同现在我使用 DynamicComponentLoader 为当前选定的对象插入特定
Git 中可以使用特殊字符吗？

我真的很高兴我修复了 Rails 代码中的这个愚蠢的错误并且很高兴地在终端中输入了以下内容 git add git commit am Finally fixed that difficult bug 才发现git不喜欢有谁知道我可以将
Python Pandas Concat“WHERE”满足条件

如何连接许多 Python Pandas 数据帧中的特定列其中许多数据帧中每个数据帧中的另一列满足特定条件此处通俗地称为条件 X 在 SQL 中使用 JOIN 子句和 WHERE df2 Col2 X 和 df3 Col2 X 和
是否对破折号进行编码

我正在尝试在我的 Phonegap Android 应用程序中使用 Google Analytics 我按照这个仓库中的说明进行操作 https github com DoersGuild Cordova Android Analytics
如何检查两个 Map 对象是否相等？

我如何检查是否有两个ES2015 地图 https developer mozilla org en US docs Web JavaScript Reference Global Objects Map对象具有相同的集合 key valu
我如何在学说上使用“外键”？

我正在 symfony2 和原则上制作课程管理系统我对在学说中使用外键感到困惑实体用户 php class User extends BaseUser ORM Id ORM Column type integer ORM Genera
是否可以通过 smtp 通过 bash 脚本发送邮件？

我有postfix dovecot 我想制作可以使用 SMTP 的 bash 脚本我不想使用sendmail 是否可以也许有人有一些代码示例男孩当挑战被抛出时它总是bash就在我的头顶上 bin sh function check
是否需要锁定对 bool 的访问，或者是否过度杀伤力

我有一个主要设计为 POCO 类的类具有各种线程和任务可以读取其值只有其他人偶尔会更新这些值这似乎是 ReaderWriterLockSlim 的理想场景问题是在类中如果需要线程安全的属性如果该属性是bool 是不是有点大材小
窗口上的代理

我想设立一个Proxy当定义了新属性时它会警告我window目的实际上我想捕获所有全局变量声明 let handler defineProperty target key descriptor console log hey key re
如何在 w3m 终端中使用 Javascript？

我发现文本浏览器 w3m 在我看来是迄今为止最好的然而主要问题是Javascript 当我使用 Stackoverflow 时我根本看不到评论我不确定让 Javascript 在终端中存在什么限制如何为终端启用至少部分 JavaS
在 pthread 中实现 FIFO 互斥体

我正在尝试实现支持并发插入的二叉树甚至可能在节点之间发生但不必为每个节点分配全局锁或单独的互斥体相反分配的此类锁的数量应按线程数量使用树因此我最终得到了一种锁车队 http en wikipedia org wiki Lock
在 R 中查找特殊字符的第三次出现并删除之前的所有内容

我有这个包含 URL 的示例向量我的目标是获取URL的路径 sample1 lt c http tercihblog com indirisu docugard http funerariagomez com js ggogle a201

在 R 中查找特殊字符的第三次出现并删除之前的所有内容

在 R 中查找特殊字符的第三次出现并删除之前的所有内容 的相关文章

随机推荐

热门标签

在 R 中查找特殊字符的第三次出现并删除之前的所有内容的相关文章