Ruby 的 String#gsub、unicode 和非单词字符

2024-03-10

作为更大系列操作的一部分，我试图获取更大字符串的标记化块，并去掉标点符号、非单词官样文章等。我最初的尝试使用String#gsub和\W正则表达式字符类，如下所示：

my_str = "Hello,"
processed = my_str.gsub(/\W/,'')
puts processed # => Hello

超级超级超级简单。当然，现在我正在扩展我的程序来处理非拉丁字符，一切都崩溃了。红宝石的\W似乎是这样的[^A-Za-z0-9_]，当然，不包括带有变音符号的内容（ü、í 等）。所以，现在我以前简单的代码以令人不快的方式崩溃和烧毁：

my_str = "Quística."
processed = my_str.gsub(/\W/,'')
puts processed # => Qustica

请注意，gsub() 有意地删除了带重音的“í”字符。我想到解决这个问题的一种方法是扩展 Ruby 的 \W 白名单以包含更高的 Unicode 代码点，但是它们的数量非常多，而且我知道我会错过一些并导致问题（并且我们甚至不要开始考虑非拉丁语言......）。另一个解决方案是将我想要删除的所有内容（标点符号、$/%/&/™ 等）列入黑名单，但是，同样，有很多东西，我really不想开始玩黑名单打地鼠游戏。

有没有人找到解决这个问题的原则性解决方案？是否有一些隐藏的、Unicode 友好的版本\W我还没有发现吗？谢谢！

您需要使用“-Ku”选项运行 ruby 以使其使用 UTF-8。请参阅文档命令行选项 http://phrogz.net/programmingruby/rubyworld.html。当我使用 irb 执行此操作时会发生以下情况：

% irb -Ku
irb(main):001:0> my_str = "Quística."
=> "Quística."
irb(main):002:0> processed = my_str.gsub(/\W/,'')
=> "Quística"
irb(main):003:0>

你也可以把它放在#!你的 ruby 脚本中的一行：

#!/usr/bin/ruby -Ku

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ruby 的 String#gsub、unicode 和非单词字符的相关文章

Accepts_nested_attributes_for Rails 3 中的实际形式使用

使用 Ruby on Rails 3 我半明白accepts nested attributes for是如何的supposed工作但我无法找出以某种形式实现这一点的实用方法例如如果有人想在其用户页面中添加他们最近的位置 user r
只有一组多次捕获

String 50 60 70 50 1 7 9 51 5 9 10 Want 9 51 Tried G K d Result 1 7 9 51 看来您正在使用 PCRE 正则表达式来获取可以在内部数学运算符前面添加的数字没有内在的 Us
在 p 标签中换行/换行

我有多个文本文件需要使用正则表达式将每个段落包装在 p 标记中即之前 Paragraph 1 Paragraph 2 Paragraph 3 After p Paragraph 1 p p Paragraph 2 p p Paragra
什么是代码页 0？

我正在使用Delphi函数 StringCodePage 我在 COM 函数 Acrobat Annotation getContents 请参阅我的其他帖子返回的字符串上调用它它返回 0 0是什么安西代码页 0 是 CP ACP
句子中模糊的电子邮件地址

我正在输出日志消息需要隐藏其中的电子邮件地址日志消息可能如下所示 A lead was saved for email protected cdn cgi l email protection Date 11th December 20
sinatra 应用程序在运行时无法启动

我使用的是 Ubuntu 10 10 Ruby 1 9 2 无论我做什么我都无法在本地计算机上启动 sinatra 应用程序你好 rb require sinatra get do Hello World end ruby hello
负向查找正则表达式 - 仅出现一次 - Java

我正在尝试查找字符串是否包含only one一个词的出现 e g String jjdhfoobarfoo Regex foo gt false String wewwfobarfoo Regex foo gt true String jj
替换 Greasemonkey 中的部分 URL

我正在尝试使用 Greasemonkey 脚本替换 url 的一部分但很难实现我想要做的事情原始网址如下 http x1 example to images thumb 50 157 1571552600 jpg http x2 exa
如何在正则表达式中编写可选单词？

我想编写一个识别以下模式的 java 正则表达式 abc def the ghi and abc def ghi 我试过这个 abc def the ghi 但是它没有识别第二种模式我哪里出错了 abc def the ghi 删除多余
平衡付款 - 有关获取现有买家和商家账户参考信息的文档

我如何获得已创建的买家和商家帐户的参考我只是找到创建买家和商家帐户的示例我没有找到任何有关获取该信息以供重用的示例是否有关于此的现有文档或只是 rdoc 中的内容根据对 rdoc 的引用我假设您在这里使用 Ruby gem 使用唯
android中如何将字符串转换为unicode

我正在解析一些unicodes from json to my android应用程序 API 给出unicodes像这样的图标 ue600 当我将这个unicode直接添加到textview like textview setText u
从轨道控制器返回

这是一个初学者 Rails 问题我这样做之后 format xml head ok 如何从控制器端点返回而不显示视图如果我此时放弃函数的末尾我会得到我所期望的结果但如果我调用返回我最终会进入视图或者在我的情况下会出现缺少的视图
PostgreSQL & regexp_split_to_array + 取消嵌套

我有这样的绳子测试1 纽约 X 测试 2 芝加哥 Y 测试 3 宾夕法尼亚州哈里斯堡 Z 我需要的结果是 Column1 Column 2 Column3 Test 1 new york X Test 2 chicago Y Test 3
如何查找重复字母最多的单词

我的目标是找到给定字符串中重复字母最多的单词例如 aabcc ddeeteefef iijjfff 会回来 ddeeteefef 因为 e 在这个单词中重复了五次这比所有其他重复字符都多到目前为止这是我得到的但它有很多问题并且不完
正则表达式：括号表达式中的双反斜杠

以下表达式中的双反斜杠匹配什么它是一个过滤器吗 and 转义反斜杠或 and 未转义或 and 逃避问号这是正则表达式的链接以及一些示例测试字符串如在Rubular http rubular com r Jrw1G4YLtT Th
什么正则表达式永远无法匹配？

Merged https meta stackexchange com questions 158066 what is a merged question with 永远不会与任何内容匹配的正则表达式 questions 1723182
这些 Unicode 组合字符是怎么回事？我们如何过滤它们？
如果数组包含一个或多个相同值，则合并数组

我有一个数组数组 a 1 2 3 3 4 5 6 7 8 8 9 9 10 我想合并包含一个或多个相同值的所有数组所以 a 1 2 3 4 5 6 7 8 9 10 我正在努力寻找一种简洁的方法来解决这个问题有任何想法吗我相信这是正确
如何使用 Regex.Replace 从字符串中删除数字？

我需要使用Regex Replace从字符串中删除所有数字和符号输入示例 123 abcd33输出示例 abcd 请尝试以下操作 var output Regex Replace input d string Empty The d标识符
Ruby：基于控制台的菜单

我有一个名称和 URL 数组并希望以向上向下滚动菜单的形式向用户呈现名称列表基本上是什么dialog允许在外壳内我调查过ncurses ruby rdialog and HighLine但它们似乎要么作为一个项目被放弃要么甚至从它

随机推荐

无法在 .aspx 中的查询字符串中传递多个值以在运行时报告

这应该是一个简单的过程但现在它变成了烦人的问题我试图在 VS2012 中的 ASP Net Web 报告中的查询字符串中传递多个值该页面必须将多个值作为参数传递给报表当我发送单个值例如 abc 时数据会被正确提取但是当我传递由
将无服务器 VPC 连接器连接到宿主项目中的 Cloud Run 时出现权限问题

我的项目中的 Cloud Run 有一个服务x需要访问虚拟机实例我允许使用无服务器 VPC 连接器在host项目我的问题同时关注this https cloud google com run docs configuring sha
将光标设置为元素

我有一个 HTML 符号
ASP.NET Core WebAPI 404 错误

我在 asp net core 中创建了一个 Web Api Api 的内容如下 Route api controller public class BlogController Controller public IContext con
如何将列表中保存的 datagridview 复选框列值导出到 Excel 中

我有一个class and a Form1 In my class我创建了变量来保存我的数据保存状态 cs public static List
symfony2 +doctrine2@postgresql 设置模式

我想在新项目中使用 symfony2 doctrine2 我遇到了 postgresql schemes 的一个小问题与 mysql 相比您可以在 postgres 像其他数据库一样中指定不同的方案例如我们的 Productiv
HTML 服务 - 未捕获的网络错误：表单提交失败

我正在研究谷歌示例代码HTML 服务与服务器功能通信 https developers google com apps script guides html communication 我无法让示例代码适用于 Forms 代码中是否有错误
具有 flatMap 的集合是 monad 吗？

Scala有一个特点Iterable A 定义了 def flatMap B f A GenTraversableOnce B Iterable B 那当然looks就像 monad 上的 bind 函数一样文档暗示它是一个 monad
C++ SDL，为什么SDL_LoadBMP()返回NULL？

在做了一些研究后我刚刚开始使用 SDL 我从本教程开始http lazyfoo net SDL tutorials lesson01 index2 php http lazyfoo net SDL tutorials lesson01 i
将多个 PDF 文件合并为一个单页 PDF - 使用 PHP 进行定位合并 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案这并不是尝试将单独的 PDF 合并为一个具有多个页面的 PDF 它试图从已经存在的其他几个 PDF 中
为什么 sys.stdin.readline() 的结果与我期望的结果不相等？

我正在尝试将键盘输入与字符串进行比较 import sys read from keyboard line sys stdin readline if line stop print stop detected else print no
从稀疏定义列表中挑选无模式下值的算法

我有以下问题我正在开发一个随机模拟器它随机采样系统的配置并存储每个配置在特定时间实例被访问次数的统计数据代码大致是这样的 f Integer Integer 0 someplace later in the code e g ind
jQuery 中的缓动函数

这个问题听起来太微不足道了但我在任何地方都找不到答案我正在浏览 jQuery 文档看到了一些像这样的签名 show duration easing callback and animate properties duration ea
如何过滤多个extjs网格列？

要过滤一个网格列我们可以使用 xtype button text Search handler function store clearFilter var searchValue Ext getCmp textFieldId getVa
目录轮询的最佳实践

我必须进行批处理来自动化业务流程我必须定期轮询目录以检测新文件并进行处理当旧文件正在处理时新文件可以进来目前我使用quartz调度程序和线程同步来确保只有一个线程可以处理文件部分代码为应用程序上下文 xml
MSVC 中带有 UTF8 字符的 wchar_t*

我正在尝试格式化wchar t 与 UTF 8 字符一起使用vsnprintf然后使用打印缓冲区printf 给出以下代码 This code is modified version of KB sample https www ibm c
Spring MVC 控制器中代理 HttpServletRequest 最简单的方法

我正在使用 spring mvc 构建 REST 服务我现在正在寻找一种从 Spring MVC 控制器内部将 HTTP 请求代理到外部 REST 服务的方法我正在获取 HttpServletRequest 对象并希望代理它并进行尽可
查找所有子控件WPF

我想找到 WPF 控件中的所有控件我查看了很多示例似乎它们都需要名称作为参数传递或者根本不起作用我有现有的代码但它无法正常工作 public static IEnumerable
C 预处理器能够逐字符处理字符串吗？

我想在编译时隐藏字符串我知道它可以在其他预处理器中完成但我还没有找到一种方法来做到这一点C预处理器好吧你可以做到但它很难看 define ENCODE STRING 14 str str 0 0x020 str 1 0x020 s
Ruby 的 String#gsub、unicode 和非单词字符

作为更大系列操作的一部分我试图获取更大字符串的标记化块并去掉标点符号非单词官样文章等我最初的尝试使用String gsub和 W正则表达式字符类如下所示 my str Hello processed my str gsub W p

Ruby 的 String#gsub、unicode 和非单词字符

Ruby 的 String#gsub、unicode 和非单词字符 的相关文章

随机推荐

热门标签

Ruby 的 String#gsub、unicode 和非单词字符的相关文章