R 中的掩码电话号码

2024-01-25

我的原始数据有很多个人信息，所以我在R中屏蔽它们。示例数据和我的原始代码如下：

install.packages("stringr")
library(string)

x = c("010-1234-5678",
      "John 010-8888-8888",
      "Phone: 010-1111-2222",
      "Peter 018.1111.3333",
      "Year(2007,2019,2020)",
      "Alice 01077776666")

df = data.frame(
  phoneNumber = x
)

pattern1 = "\\d{3}-\\d{4}-\\d{4}"
pattern2 = "\\d{3}.\\d{4}.\\d{4}"
pattern3 = "\\d{11}"

delPhoneList1 <- str_match_all(df, pattern1) %>% unlist
delPhoneList2 <- str_match_all(df, pattern2) %>% unlist
delPhoneList3 <- str_match_all(df, pattern3) %>% unlist

我从数据集中发现了三种类型的模式，每种结果如下：

> delPhoneList1
[1] "010-1234-5678" "010-8888-8888" "010-1111-2222"
> delPhoneList2
[1] "010-1234-5678" "010-8888-8888" "010-1111-2222" "018.1111.3333" "007,2019,2020"
> delPhoneList3
[1] "01077776666"

Pattern1 是我国典型的电话号码类型，使用破折号，但有人使用逗号输入类似 pattern2 的号码。但是，pattern2 还包含pattern1，因此它会检测其他模式，如年份系列。这是一个意想不到的结果。

我的问题是如何匹配我定义的确切模式。Pattern2 包含过多的模式，例如"007,2019,2020" from "Year(2007,2019,2020)".

此外，下一步是使用以下代码屏蔽号码：

for (phone in delPhoneList1) {
  df$phoneNumber <- gsub(phone, "010-9999-9999", df$phoneNumber)
}

我认为该代码对我来说是完美的，但如果您有更有效的方法，请告诉我。

Thanks.

一种模式可以统治一切;-)

ptn <- "\\b\\d{3}([-.]?)\\d{4}\\1\\d{4}\\b"
grepl(ptn, x)
# [1]  TRUE  TRUE  TRUE  TRUE FALSE  TRUE

原因是你的pattern2失败是因为它使用了.作为分隔符，但在正则表达式中表示“任何字符”。你可以用\\.代替.它会表现得更好。
我在这里使用占位符：如果第一个分隔符是-, then \\1确保其他分隔符相同。如果它是空的，那么第二个也是空的。这也使得11个不间断的号码pattern3.

The \\b是字边界，向我们保证 12 位数字会not match:

grepl(ptn, c("12345678901", "123456789012"))
# [1]  TRUE FALSE

由于它有一个占位符，因此它往往会有点混乱stringr::功能，但我们可以根据您的需要解决这个问题。

例如，如果您将占位符替换为相同模式的第二个实例，则可能允许123-4444.5555（混合分隔符），如果这不是问题的话。

ptn2 <- "\\b\\d{3}[-.]?\\d{4}[-.]?\\d{4}\\b"
unlist(str_match_all(x, ptn2))
# [1] "010-1234-5678" "010-8888-8888" "010-1111-2222" "018.1111.3333" "01077776666"

或者我们可以利用匹配模式的数量（原始ptn):

unlist(str_match(x, ptn)[,1])
# [1] "010-1234-5678" "010-8888-8888" "010-1111-2222" "018.1111.3333" NA              "01077776666"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

stringr

R 中的掩码电话号码的相关文章

R 多元一步预测和准确性

我想使用 R 来比较两个预测模型的 RMSE 均方根误差第一个模型使用 1966 年至 2000 年的估计值来预测 2001 年然后使用 1966 年至 2001 年的估计值来预测 2002 年依此类推直至 2015 年第二个模型使
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

使用 lodash 的 isEqual() 在比较中排除一些属性

我在用是平等的 https lodash com docs isEqual它比较 2 个对象数组例如每个对象 10 个属性并且工作正常现在有 2 个属性创建和删除我不需要成为比较的一部分 Example var obj1 na
如何将第一个孩子移到最后？

我在 div 容器中有一些 div 项目我想连续地为它们设置动画我知道如何在无限循环中运行我的函数但是选择第一个 div 对其进行动画处理并在完成动画后将其移动到末尾存在问题我的函数如下所示 function MoveItems c
将 XAML 行为附加到相同类型的所有控件

我有一个InvokeCommandAction我所拥有的附加到GotFocus的事件TextBox像这样
Laravel 将文件上传到项目目录之外的不同存储

我正在创建一个 CMS 其中我可以使用 Laravel 的文件上传来上传文件照片 pdf 等我所做的不同之处在于我想将文件存储在 CMS 项目目录之外比如说我网站的存储文件夹顺便说一句我正在创建两个不同的项目 Laravel 文
CFG 在 NLTK 中使用 POS 标签 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
针对特定包的自定义意图

假设我的应用程序是 A 我使用应用程序 A 中的自定义意图启动应用程序 B 的活动它工作得很好正如我所希望的那样我使用的代码是在应用程序 B 的清单中
使用 printf 格式化输出：截断或填充

我想产生以下输出 gt Avril Stewart 99 54 gt Sally Kinghorn 170 60 gt John Young 195 120 gt Yutte Schim 250 40 如您所见短于 14 个字符的名称会用
接收 zip 文件，angularJs

当我想从 Rest api 下载 zip 文件时遇到问题当 zip 文件从我的服务器带有球衣传输时我收到的文件已损坏我已经尝试过responseType arraybuffer 在我的 http 请求上但它没有解决任何问题这是
类似 XPath 的嵌套 Python 字典查询

有没有办法为嵌套 python 字典定义 XPath 类型查询像这样的事情 foo spam eggs morefoo bar soap morebar bacon foobar print foo select morefoo more
“constexpr if”与“if”的优化 - 为什么需要“constexpr”？

C 1z 将引入 constexpr if 根据条件删除一个分支的 if 看起来合理且有用但是没有 constexpr 关键字就不可能了吗我认为在编译期间编译器应该知道编译期间是否已知条件如果是的话即使是最基本的优化级别也应该删
更改 jquery 工具提示箭头的位置

我正在尝试将箭头的位置更改为文本框附近的左侧我怎样才能解决这个问题我已经尝试过这个工作示例链接 http jsfiddle net b8fcg http jsfiddle net b8fcg HTML
Java EE 6 发布日期 [已关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions Java
用于操作 S-Record 和 Intel HEX 16 文件的库

是否有可用的开源库用 python 或 java 开发用于操作 Motorola S Record 文件和 Intel HEX 16 文件例如从一种格式转换为另一种格式我正在寻找一个纯 java或python库而不仅仅是一组ja
RecyclerView 回收时出现问题

我有一个我使用创建的项目列表RecyclerView 当用户单击其中之一时我会更改所选项目的背景颜色问题是当我滚动浏览我的项目并回收它们时某些项目会获得所选项目的背景颜色这是错误的在这里你可以看到我的Adapter s code
用字典解析字符串的算法

Given 一本充满单词的字典 in july den dentist best 使用一些 C API 来访问它 boolean findWord string word or string getNextWord void 迭代它一些没
解码 websocket 框架

我正在尝试解码 websocket 帧但在解码扩展有效负载时没有成功到目前为止我所取得的成就是 char in data char buffer unsigned int i unsigned char mask 4 unsigned
就地对 Perl 数组进行排序

我有一个对数组的引用称为 intervals 我想对这个数组中的值进行排序数组中可能有大量值所以我不想复制这些值我目前的做法是这样的 sub by position a gt start lt gt b gt start a gt
React Hooks：如何在渲染之前等待数据被获取

我在 useEffect 挂钩中有 fetch 方法 export const CardDetails gt const card getCardDetails useState const id useParams useEffect g
ResponseEntityExceptionHandler 针对 401 异常返回空响应正文

我正在尝试使用 RestTemplate 实现对身份验证服务器的 Rest 调用并记录响应以防服务器返回异常为了做到这一点我使用 ResponseEntityExceptionHandler 来处理 HttpClientErrorE
R 中的掩码电话号码

我的原始数据有很多个人信息所以我在R中屏蔽它们示例数据和我的原始代码如下 install packages stringr library string x c 010 1234 5678 John 010 8888 8888 Phon

R 中的掩码电话号码

R 中的掩码电话号码 的相关文章

随机推荐

热门标签

R 中的掩码电话号码的相关文章