这个空白隐藏在哪里？

2024-02-25

我有一个字符向量，它是一些 PDF 抓取的文件pdftotext（命令行工具）。

一切都（幸福地）排列得很好。然而，该向量充满了一种空白类型，无法使用正则表达式：

> test
[1] "Address:"              "Clinic Information:"   "Store "                "351 South Washburn"    "Aurora Quick Care"    
[6] "Info"                  "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718"   "Pewaukee"  

> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn", 
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718", 
"Pewaukee")

> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn", 
+                  "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718", 
+                  "Pewaukee")

> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE

> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8"   "unknown"

显然，有一些角色没有在dput，如下面的问题所示：

如何正确输出国际化文本？ https://stackoverflow.com/questions/11369390/how-to-properly-dput-internationalized-text

我无法复制/粘贴整个向量......我如何搜索并销毁这个非空白空白？

Edit

显然我还不太清楚，因为答案无处不在。这是一个更简单的测试用例：

> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE

屏幕上和屏幕上打印的“诊所”和“信息”之间有一个空格。dput输出，但字符串中的任何内容都不是标准空间。我的目标是消除这个问题，这样我就可以正确地 grep 出该元素。

将我的评论升级为答案：

您的字符串包含一个不间断空格 (U+00A0)，当您粘贴它时，该空格已转换为普通空格。使用 perl 风格的正则表达式可以轻松匹配 Unicode 中所有奇怪的类似空格的字符：

grepl("[0-9]+\\p{Zs}[A-Za-z ]+", test, perl=TRUE)

Perl 正则表达式语法是\p{categoryName}，额外的反斜杠是包含反斜杠的字符串语法的一部分，“Zs”是“分隔符”Unicode类别，“空格”子类别。仅针对 U+00A0 字符的更简单方法是

grepl("[0-9]+[ \\xa0][A-Za-z ]+", test)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

这个空白隐藏在哪里？的相关文章

data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
java中删除字符串中的特殊字符？

如何删除字符串中除之外的特殊字符现在我用 replaceAll w s 它删除了所有特殊字符但我想保留谁能告诉我我该怎么办 Use replaceAll w s 我所做的是将下划线和连字符添加到正则表达式中我添加了一个连字符之前
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
dplyr：连接中的 NSE (by)

我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表问题是我无法为 by 提供正确的值我想我现在已经找到了解决方案但感觉我正在以一种额外复杂的方式来做因此如果您知道更简单更优雅的解决方案请告诉我这就是
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
根据特定字符获取整个字符串或子字符串

我有一个包含 MIME 类型的字符串例如application json 现在我想将其与实际的 HTTP 标头进行比较在本例中content type 如果标头包含 MIME 类型那么就很简单 if mimeType contentT
JavaScript 中的实时摩尔斯电码转换器

在看到谷歌关于莫尔斯电码 gmail 的愚人节笑话后我想我应该尝试用 javascript 创建一个实时莫尔斯电码转换器我正在使用正则表达式和替换将莫尔斯电码更改为字符例如 replace g a replace g r 我遇到的问题
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
使用基于 DFA（线性时间）正则表达式捕获组：可能吗？

是否可以使用基于 DFA 的正则表达式实现捕获组同时保持相对于输入长度的线性时间复杂度直觉上我认为不是因为子集构造过程不知道它可能落在哪个捕获组内但这是我第一次意识到这可能是一个潜在的问题所以我不知道是否可以使用基于 DFA 的
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
Perl：正则表达式不抓取代码中的多行 C 风格注释

我有一个 Perl 程序读取用 C 编写的 SRC 文件使用 SRC 文件中的正则表达式匹配来查找特定格式的数据以用作目标文件名打开新的目标文件执行另一个正则表达式匹配以查找包含关键字 abcd 的所有 C 风格注释注意这些注释
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
如何通过php获取网页的Open Graph协议？

PHP 有一个简单的命令来获取网页的元标记 get meta tags 但这仅适用于具有名称属性的元标记然而开放图谱协议如今变得越来越流行从网页获取 opg 值的最简单方法是什么例如我看到的基本方法是通过 cURL 获取页面并使用
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
vim 中的正则表达式查找和替换：向数字添加 .0

我有一个如下所示的文件 1 1 0 1 6 1 0 2 8 1 0 3 10 1 0 4 12 1 0 6 如何为所有数字添加 0 后面的数字除外我认为用正则表达式来做到这一点应该不会太难但是我的正则表达式知识太生疏了使用 VIM s
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字

随机推荐

将字体大小调整为绘图设备的大小

我经常遇到必须调整输出图像大小的情况不幸的是这意味着通常我必须调整字体大小以使内容可读例如如果下面的图 library ggplot2 library tibble library stringi set seed 1 df lt
django - 限制用户数量

对不起我的英语不好只有一个问题是否有任何方法可以限制 Django 应用程序中可以创建的用户数量我搜索了很多地方只找到了这个但我在仓库中看到最后一次更新是 3 年前https github com 1stvamp django l
在 ASP.NET MVC 5 应用程序中启用 SSL 会导致 OpenIdConnectProtocolValidator 问题

我有一个针对 Azure Active Directory 进行身份验证的 ASP NET MVC 5 应用程序我想在整个应用程序上启用 SSL 因此利用全局过滤器如下 public class FilterConfig
外键未存储在 Yii 中

我有一个这样的数据库 Group id name Member id group id firstname lastname membersince Now as group id is foreign key then when I wi
如何对 REST 视图类使用 @condition 装饰器

我正在尝试使用 ETAG HTTP 标头发送 304 NOT MODIFIED 响应使用以下代码 class MyView GenericAPIView serializer class MySerializer condition et
grails 将 svn 修订版添加到 app.version

我正在尝试将 svn 修订版添加到我的app version不需要 ant 或其他类似的外部工具看来我可以加入 Events groovy对此但文档相对较少有人知道怎么做吗 This http grails 1312388 n4 na
JApplet NoClassDefFoundError

我正在 Eclipse 上编写 Japplet 它时不时地停止在 html 页面上工作以下是错误 Exception in thread thread applet main MapGenerator class 1 java lang
有没有一种简单的方法可以从 .NET 用户控件中删除“ct100”前缀？

长话短说几十个页面没有使用母版页对于新模块我创建了一个带有菜单控件的母版页菜单控件已经存在这样我就可以在我现在创建的大约六个页面上获得相同的外观由于内容页使用母版页因此菜单控件的名称更改为ct100 Menu1而不仅仅是Men
使用 C# 编辑 DataGridview 并将其保存在数据库表中

我使用 MYSQL Server 作为我的项目后端我有一个 DataGridView 它填充了数据库中的数据当我在 DataGridView 单元格中进行更改并单击保存按钮时数据需要在 DataGridView 和数据库表中更改这是
新的CSS样式声明

我正在尝试使用浏览器的内置类型CSSStyleDeclaration以编程方式传递和修改样式这很方便因为 cssText财产然而 new CSSStyleDeclaration 抛出一个Illegal Constructor错误所以
Gradle 以非零退出值 1 完成

我刚刚在 libgdx 中生成了一个项目并导入到 eclipse 编译了一些依赖项现在我得到了 Error Gradle Execution failed for task android compileDebugAidl com and
如何选择自动完成下拉列表中的第一个元素

如果没有元素任何人都可以帮助我如何选择自动完成下拉列表的第一个元素被选中我尝试使用自动对焦为键盘事件工作如果我使用鼠标第一个元素不会选择自动聚焦的元素 visit here https stackoverflow com a 9
在 Swift 中使用 NSURL 读取文本文件

我想读取并显示位于 URL 的文本文件的内容我正在为 Yosemite 编写 Mac 应用程序我需要使用 Swift 但我坚持这样做这是我的代码 let messageURL NSURL string http localhost 8
任务并行库 INotifyPropertyChanged 不抛出异常？

我有一个 wpf 项目我在绑定到文本框的属性上使用 INotifyPropertyChanged 我正在使用任务 TaskParallelLibrary 在不同的线程上更新此值它已正确更新并且不会引发异常我认为它会抛出异常因为它是在
Angular 4 - Http 请求错误：您在需要流的地方提供了“未定义”

在尝试执行 HTTP Post 请求时我收到以下错误 auth service ts c694 156 请求新的时出错密码错误消息您在流所在位置提供了未定义预期的您可以提供 Observable Promise Array 或
如何使用uiwebview显示一些网页？

如何使用 uiwebview 显示某个 url 请求的网页我不知道该怎么做谁能告诉我该怎么做有开源的吗谢谢 NSString urlAddress http www google com NSURL url NSURL URLWit
如何更加重视机器学习中的某些特征？

如果使用像 scikit learn 这样的库如何为 SVM 这样的分类器的输入中的某些特征分配更多权重这是人们做还是不做的事首先你可能不应该这样做机器学习的整个概念是使用统计分析分配最佳权重你在这里干扰了整个概念因此你需要非
将列表传递给 Tcl 过程

将列表传递给 Tcl 过程的规范方法是什么如果我能得到它以便列表自动扩展为可变数量的参数我真的很喜欢它所以像这样 set a b c myprocedure option1 option2 a and myprocedure opt
在 IE 和 Chrome 中上传之前预览图像

我正在尝试设计一个模块在用户将图像上传到数据库之前我想在其中向用户显示图像的预览我找到了一个适用于 Firefox 但不适用于 IE 和 Chrome 的解决方案有人可以帮助我吗这是我的代码 function imageURL i
这个空白隐藏在哪里？

我有一个字符向量它是一些 PDF 抓取的文件pdftotext 命令行工具一切都幸福地排列得很好然而该向量充满了一种空白类型无法使用正则表达式 gt test 1 Address Clinic Information Stor

这个空白隐藏在哪里？

这个空白隐藏在哪里？ 的相关文章

随机推荐

热门标签

这个空白隐藏在哪里？的相关文章