类似 Google 的搜索查询标记化和字符串分割

2024-02-21

我正在寻找类似于谷歌的做法来标记搜索查询。例如，如果我有以下搜索查询：

the quick "brown fox" jumps over the "lazy dog"

我想要一个包含以下标记的字符串数组：

the
quick
brown fox
jumps
over
the
lazy dog

正如您所看到的，标记保留了双引号中的空格。

我正在寻找一些如何在 C# 中执行此操作的示例，最好不使用正则表达式，但是如果这最有意义并且性能最高，那就这样吧。

另外我想知道如何扩展它来处理其他特殊字符，例如，在术语前面放置一个 - 以强制从搜索查询中排除等等。

到目前为止，这看起来是 RegEx 的一个不错的候选者。如果它变得更加复杂，那么可能需要更复杂的标记化方案，但是除非必要，否则您应该避免该路线，因为它需要更多的工作。（另一方面，对于复杂的模式，正则表达式很快就会变成狗，同样应该避免）。

这个正则表达式应该可以解决您的问题：

("[^"]+"|\w+)\s*

以下是其用法的 C# 示例：

string data = "the quick \"brown fox\" jumps over the \"lazy dog\"";
string pattern = @"(""[^""]+""|\w+)\s*";

MatchCollection mc = Regex.Matches(data, pattern);
foreach(Match m in mc)
{
    string group = m.Groups[0].Value;
}

此方法的真正好处是它可以轻松扩展以包含您的“-”要求，如下所示：

string data = "the quick \"brown fox\" jumps over " +
              "the \"lazy dog\" -\"lazy cat\" -energetic";
string pattern = @"(-""[^""]+""|""[^""]+""|-\w+|\w+)\s*";

MatchCollection mc = Regex.Matches(data, pattern);
foreach(Match m in mc)
{
    string group = m.Groups[0].Value;
}

现在我和下一个人一样讨厌阅读正则表达式，但如果你把它分开，这个就很容易阅读：

(
-"[^"]+"
|
"[^"]+"
|
-\w+
|
\w+
)\s*

解释

如果可能，匹配一个减号，后跟一个“，然后是所有内容，直到下一个”
否则匹配一个“，后跟所有内容，直到下一个”
否则匹配 - 后跟任何单词字符
否则匹配尽可能多的单词字符
将结果放入一组
吞掉任何后续空格字符

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Search

tokenize

类似 Google 的搜索查询标记化和字符串分割的相关文章

电话号码的正则表达式，不允许全零

需要您的正则表达式帮助我当前的正则表达式是 d 8 最小长度为 8 不允许包含字母特殊字符和空格我还想禁止全零如 00000000 Thanks 该模式应该可以满足您的需求 0 d 8 The 0 部分是负前瞻将阻止仅输入零 Ex
起订量要求？违背了目的？

是否需要虚拟化您想要模拟的所有属性访问器就违背了模拟的目的我的意思是如果我必须修改我的对象并虚拟化我想要模拟的每个访问器我难道不能继承我的类并自己模拟它吗你的问题非常有效但如果你仔细想想没有其他方法可以模拟课程如果你采用一个接
是否允许将类模板类型参数键入相同的名称？

这似乎可以在 MSVC 中按预期编译甚至工作但它是合法的 C 代码吗它是否能保证执行此处所期望的操作即将模板类型导出到结构体的同名用户 template
如何在 Asp.net Gridview 列中添加复选框单击事件

我在 asp 中有一个 gridview 其中我添加了第一列作为复选框列现在我想选择此列并获取该行的 id 值但我不知道该怎么做这是我的 Aspx 代码
Paradox 表 - Oledb 异常：外部表不是预期的格式

我正在使用 Oledb 从 Paradox 表中读取一些数据我遇到的问题是当我将代码复制到控制台应用程序时代码可以工作但在 WinForms 中却不行两者都以 x86 进行调试我实际上只是复制代码在 WinForms 应用程序
如何使用 wpf webbrowser 将数据发布到 Web 服务器

我想从数据库获取数据并使用它来让用户登录到网站我有一个包含 Web 浏览器控件的 wpf 页面我有这样的代码用于将用户登录到用 php 编写的网站
我可以仅在少数情况下关闭模拟吗

我有一个始终使用模拟的应用程序但是当用户以管理员身份登录时一些操作需要他们写入服务器本身现在如果这些用户在实际服务器上没有权限有些用户没有则不会让他们写入我想做的是关闭几个命令的模拟有没有办法做这样的事情 using Ho
操纵 setter 以避免 null

通常我们有 public string code get set 如果最终有人将代码设置为 null 我需要避免空引用异常我尝试这个想法有什么帮助吗 public string code get set if code null cod
编译器错误“错误：在文件范围内可变地修改了‘字符串’”

考虑 include
格式化货币

在下面的示例中逗号是小数点分隔符我有这个 125456 89 我想要这个 125 456 89 其他示例 23456789 89 gt 23 456 789 89 Thanks 看看这个例子 double value 12345 678
C#中Enum中定义的value__是什么

What value 可能在这里 value MSN ICQ YahooChat GoogleTalk 我运行的代码很简单 namespace EnumReflection enum Messengers MSN ICQ YahooChat
系统错误 124 - SHFileOperation 的 ERROR_INVALID_LEVEL

我在使用时遇到问题SHFileOperation SHFileOperation SHFILEOPSTRUCT https stackoverflow com questions 9191415 shfileoperation shfile
设计 Javascript 前端 <-> C++ 后端通信

在我最近的将来我将不得不制作一个具有 C 后端和 Web 前端的系统要求目前我对此了解不多我认为前端将触发数据传输而不是后端所以不需要类似 Comet 的东西由于在该领域的经验可能很少我非常感谢您对我所做的设计决策的评论
使用 foreach 循环和 XmlNodeList C# 将新节点附加到节点列表

目前我处理的是这样的XML类型 XML FILE http 20drive google com open id 0By5BxgNi9eGcRldxcEZNU0FDTzQ 参考XML文件我想检查一个节点如果找不到该节点我必须将该节点附
如何访问窗口？

我正在尝试使用其句柄访问特定窗口即System IntPtr value Getting the process of Visual Studio program var process Process GetProcessesByNam
#pragma pack(16) 和 #pragma pack(8) 的效果总是相同吗？

我正在尝试使用来对齐数据成员 pragma pack n http msdn microsoft com en us library 2e70t5y1 28v vs 100 29 aspx 以下面为例 include
在 C++ 和 Windows 中使用 XmlRpc

我需要在 Windows 平台上使用 C 中的 XmlRpc 尽管我的朋友向我保证 XmlRpc 是一种广泛可用的标准技术但可用的库并不多事实上我只找到一个库可以在 Windows 上执行此操作另外一个库声称您必须做很多工作才能
g++ C++0x 枚举类编译器警告

我一直在将可怕的 C 类型安全伪枚举重构为新的 C 0x 类型安全枚举因为它们是way更具可读性不管怎样我在导出的类中使用它们所以我明确地将它们标记为导出 enum class attribute visibility defaul
启动画面后主窗口出现在其他窗口后面

我有一个带有启动屏幕的 Windows 窗体应用程序当我运行该应用程序时启动屏幕显示正常消失并加载应用程序的主窗体但是当我加载主窗体时它出现在包含该应用程序的 Windows 资源管理器目录下这是运行启动画面然后运行主窗体的代
无法使 Polly 超时策略覆盖 HttpClient 默认超时

我正在使用 Polly 重试策略并且正如预期的那样在重试过程中HttpClient达到 100 秒超时我尝试了几种不同的方法来合并 Polly 超时策略将超时移至每次重试而不是总计但 100 秒超时仍然会触发我读过大约 5 个

随机推荐

将 AjaxOnlyAttribute 和 ChildActionOnlyAttribute 组合到一个操作过滤器中

我希望能够在控制器上标记一个动作以便通过 ajax 调用和 RenderAction 来调用问题在于这两个属性派生或实现不同的抽象一种出路是下一个 AjaxOnly PartialViewResult GetViewAjax int
当不使用字符串操作时，GCC 11 给出 -Wstringop-overflow

这是我的代码 test c include
Swift 中的纯类协议

我希望我的一些课程不是全部符合使用仅限类的协议 https developer apple com library ios documentation Swift Conceptual Swift Programming Langua
使用 MS Access 中的 GUID pk 插入 SQL Server 表

我正在将数据库从 Access 后端迁移到 SQL Server 后端同时保留 Access 前端其中一张表设置了其 PK 的复制 ID 作为 Access DB 我们可以将值插入到该表中而无需引用 PK 字段因为 Access 会
使用 jquery 选择最近的锚元素

我有一张带有一个链接的表如下所示 td a href class topiclink item Topic a td 我想选择 item topic的数据我尝试使用 topiclink click function e var val
CoreData 无法完成以下错误：

我有一个非常烦人的问题我似乎无法解决当我发送一条消息并保存到核心数据时我有一个视图完成后它会向数据库询问随机消息句子并将其保存到数据库中的另一行如果我对最后一部分进行硬编码而不从数据库中获取数据那么它工作得很好但是一旦我
如何让 FTP-Simple 在 Visual Studio Code 中工作？

我最近选择开始使用 Visual Studio Code 我想连接到远程服务器并直接在服务器上编辑文件 FTP Simple 似乎是一个很好的解决方案但我很难理解该程序的一些基础知识如果我连接到服务器 FTP Simple 是否会下载a
Service Worker 和 AppCache 的比较

Service Worker 和 AppCache 之间的核心区别是什么每种方法的优点和缺点是什么何时更喜欢其中一种主要区别在于 AppCache 是一个高级声明式 API 您可以使用它指定希望浏览器缓存的资源集而 Service
使用 Shibboleth 和 Google App Engine java 实现 SSO

我正在开发一个应用程序谷歌应用引擎在Java中在这个应用程序中我必须实现SSO using SAML2 我的谷歌应用程序引擎应用程序将充当服务提供商而身份提供商将是一个单独的服务器我只需编写 SSO 的 SP 端我是 SAML 新手
分离使用 python 多处理模块启动的子进程

我想使用 python 中的 mutliprocessing 模块创建一个进程但确保它在创建子进程的进程退出后继续运行我可以使用 subprocess 模块和 Popen 获得所需的功能但我想将代码作为函数而不是脚本运行我想这样做的
如何在 Mac 上更改 R 版本

我正在尝试使用旧版本的 R 在 Mac 上运行包在 Windows 上常规选项卡中有一个开关但是在 Mac RStudio 上找不到它我参考了这个帖子 https support rstudio com hc en us art
使用 gson 反序列化内部类返回 null

我想使用 Gson 将 JSON 反序列化为对象我已经定义了适当的类其中一些类的对象包含在其他对象中当尝试反序列化整个 JSON 时我得到了空值因此我开始将其分解我达到了所有较低类都站在自己一边的地步但是当尝试反序列化为包含该
从 UserAgent 字符串创建 HttpBrowserCapabilityBase

So the Http请求库 http msdn microsoft com en us library system web httprequestbase aspx类有一个浏览器属性 http msdn microsoft com en
Azure Devops - 更新 json 文件 - powershell 脚本

我创建了 powershell 脚本来使用变量更新 json 文件 Json 文件位于 Azure Devops 存储库中 json 文件名为 var json 我将在 azure devops 中使用此解决方案因此我构建了管道并在 az
WebGet 在功能上等同于 WebInvoke(Method = "GET") 吗？

This https stackoverflow com questions 1072556 wcf webgetattribute vs webinvokeattribute问题已经问了我要问的问题但我想对答案进行一些澄清答案指出We
java中如何将列表数据转换为json

我有一个函数将数据返回为List在java类中现在根据我的需要我必须将其转换为Json Format 下面是我的函数代码片段 public static List
计算另一个计数结果出现的次数

我们有一张表叫做entries它根据日期存储用户信息用户每天只能进入数据库一次一些示例数据 id email date 1 email protected cdn cgi l email protection 04 09 13 2 em
Zend Framework 中的国家、省份、城市、产品路由

这个url结构是为了SEO优化而提出的所以建议另一种结构是行不通的提议的结构是 example com
通过正则表达式对传入进行分类引起：Application_NewMail：字节值不匹配

我正在使用 Outlook 2010 的 VBA 宏来过滤传入的电子邮件并将其分类到不同的文件夹中该规则在目标中提到在实现和测试时它确实提示错误消息框而不是成功过滤请告诉我默认呼叫下的哪个部分Application NewMail
类似 Google 的搜索查询标记化和字符串分割

我正在寻找类似于谷歌的做法来标记搜索查询例如如果我有以下搜索查询 the quick brown fox jumps over the lazy dog 我想要一个包含以下标记的字符串数组 the quick brown fox jum

类似 Google 的搜索查询标记化和字符串分割

类似 Google 的搜索查询标记化和字符串分割 的相关文章

随机推荐

热门标签

类似 Google 的搜索查询标记化和字符串分割的相关文章