将字符串拆分为单词并与其他数据重新连接

2024-03-17

我有一个使用的方法Regex寻找文本中的模式string。它可以工作，但不足以继续下去，因为它需要文本出现在确切的顺序，而不是将短语视为一组单词。

    public static string HighlightExceptV1(this string text, string wordsToExclude)
    {
        // Original version
        // wordsToExclude usually consists of a 1, 2 or 3 word term.
        // The text must be in a specific order to work.

        var pattern = $@"(\s*\b{wordsToExclude}\b\s*)";

        // Do something to string...
    }

这个版本对以前的版本进行了改进，因为它确实允许单词以任何顺序匹配，但是它导致一些间距问题在最终输出中，因为间距被删除并替换为管道。

    public static string HighlightExceptV2(this string text, string wordsToExclude)
    {
        // This version allows the words to be matched in any order, but it has
        // flaws, in that the natural spacing is removed in some cases.
        var words = wordsToExclude.Replace(' ', '|');

        var pattern = $@"(\s*\b{words}\b\s*)";

        // Example phase: big blue widget
        // Example output: $@"(\s*\bbig|blue|widget\b\s*)"

        // Do something to string...
    }

理想情况下，每个单词周围需要保留间距。下面的伪示例显示了我正在尝试做的事情。

将原始短语拆分为单词
将每个单词包装在正则表达式模式中，以保留空间当匹配时

重新连接单词模式以生成将用于的模式匹配

public static string HighlightExceptV3(this string text, string wordsToExclude)
{
    // The outputted pattern must be dynamic due to unknown
    // words in phrase.

    // Example phrase: big blue widgets

    var words = wordsToExclude.Replace(' ', '|');
    // Example: big|blue|widget

    // The code below isn't complete - merely an example
    // of the required output.

    var wordPattern = $@"\s*\b{word}\b\s*";
    // Example: $@"\s*\bwidget\b\s*"

    var phrasePattern = "$({rejoinedArray})";
    // @"(\s*\bbig\b\s*|\s*\bblue\b\s*|\s*\bwidget\b\s*)";

    // Do something to string...
}

注意：可能有更好的方法来处理单词边界间距，但我不是正则表达式专家。

我正在寻找一些帮助/建议来获取分割数组，包装它，然后以最简洁的方式重新加入它。

您需要将所有替代方案包含在一个非捕获组中，(?:...|...)。此外，为了进一步解决最终的问题，我建议用其环视明确的等效项替换单词边界，(?<!\w)...(?!\w).

这里有一个工作 C# 片段 https://ideone.com/uyQ18s:

var text = "there are big widgets in this phrase blue widgets too";
var words = "big blue widgets";
var pattern = $@"(\s*(?<!\w)(?:{string.Join("|", words.Split(' ').Select(Regex.Escape))})(?!\w)\s*)";
var result = string.Concat(Regex.Split(text, pattern, RegexOptions.IgnoreCase).Select((str, index) =>
            index % 2 == 0 && !string.IsNullOrWhiteSpace(str) ? $"<b>{str}</b>" : str));
 Console.WriteLine(result);

NOTES

words.Split(' ').Select(Regex.Escape)- 分裂words带有空格和正则表达式的文本转义每个项目
string.Join("|",...)重新构建字符串插入|项目之间
(?<!\w)负lookbehind匹配前面没有紧接单词char的位置，并且(?!\w)负向先行匹配后面没有紧跟单词字符的位置。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

aspnet

regex

string

将字符串拆分为单词并与其他数据重新连接的相关文章

C 中的 '\0' 和 printf()

在 C 入门课程中我了解到在存储字符串时存储空字符 0在它的最后但是如果我想打印一个字符串怎么办 printf hello 虽然我发现它并没有结束 0通过以下声明 printf d printf hello Output 5 但这似乎不
带有嵌入 Flash 视频的 PDF 示例？

有谁知道我在哪里可以查看嵌入 Flash 视频的 PDF 示例我知道问这个问题很愚蠢因为你会认为任何面向技术的用户都应该能够使用谷歌找到一个但我真的找不到我的另一个问题是使用 C 中的 API 将 Flash 视频嵌入 PDF 文
为什么 ObservableCollection 有两个集合构造函数？

The 可观察集合 T https msdn microsoft com en us library ms668604类有两个构造函数可以在其中传递项目集合一个构造函数接受一个IEnumerable T 另一个List T 鉴于List
微软怎么能说WinAPI中一个字的大小是16位呢？

我刚刚开始学习WinAPI 在MSDN中对WORD数据类型提供了以下解释 WORD16 位无符号整数范围是十进制 0 到 65535 该类型在 WinDef h 中声明如下 typedef 无符号短 WORD 很简单而且它与我一直在使
为什么我收到编译错误“使用已删除的函数 'std::unique_ptr ...”

我收到一条巨大的编译错误消息 c mingw include c 6 1 0 bits predefined ops h 123 18 error use of deleted function std unique ptr lt Tp D
将 std::pair const 转换为 std::pair const 安全吗？

理论上或实践上安全吗reinterpret cast a std pair
MVC4 - ContextDependentView - 是什么意思？

我刚刚开始使用 MVC4 我看到的第一个操作方法有一些新内容我查了一下互联网找不到任何关于此的信息 public ActionResult LogOn return ContextDependentView 有谁知道 ContextDe
可以通过模板间接访问基类中的私有类型

我试图在编译时根据类型是否在给定范围内公开可用来选择要使用的类型最好直接看代码 include
在 Linq 查询中使用动态列名称

foreach Dimension dimensions in Enum GetValues typeof Dimension var r new ReferenceTable dimensions referenceItems List
使用左连接获得不适当的输出

我正在尝试获取变体列表并且对于每个变体都获取所有subvariants list无论子变体属于何处特别的Test say 100 这是示例数据 Id TestId SourceSubVariantId TargetSubVariantI
如何将输出重定向到 boost 日志？

我有一个使用boost log的C 程序我加载了用户提供的动态链接库我想将 stderr 重定向到 boost 日志以便用户的库随时执行以下操作 std cerr lt lt Some stuff 它产生相同的结果 BOOST LOG
如何在 C 语言中获取输入中的空格

我想从控制台获取字符数组它还包含空格我在 C 中知道的唯一方法是 scanf 但是一旦遇到空格它就会停止接受输入我该做什么这就是我正在做的事情 char address 100 scanf s address 尝试使用 fgets
解析连接字符串

是否有标准库或代码片段可以使用这样的连接字符串获取值 string connstr DataServiceUrl http localhost foo RemoteServerConnection server http localhost
R正则表达式获取第二个下划线之前的所有文本

s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中我想使用正则表达式来获取第二个下划线之前的子字符串如何使用一个正则表达式来完成此操作另一种方法是用分割然后粘贴前两个一些东西 paste sapp
如何将 Boost Spirit 自动规则与 AST 结合使用？

编辑当我想在另一个规则上使用它时我扩展了 sehe 的示例以显示问题 http liveworkspace org code 22lxL7 http liveworkspace org code 22lxL7 17 我正在尝试提高 Bo
链接到ntdll.lib并调用ntdll.dll内部的函数

我最近正在对私有 API 进行一些研究我尝试调用诸如NtOpenFile在 ntdll dll 中LoadLibrary and GetProcAddress在运行时幸运的是它成功了今天早上我在电脑上进行了文件搜索发现ntdll
Rx 在不同的线程上生产和消费

我试图通过此处的示例代码来简化我的问题我有一个生产者线程不断地输入数据并且我尝试在批次之间添加时间延迟来对其进行批处理以便 UI 有时间渲染它但结果并不如预期生产者和消费者似乎在同一个线程上我不希望批处理缓冲区在正在生成的线程上
如何解决 boost::multi precision::cpp_dec_float 除法错误

除以boost multiprecision cpp dec float有某种舍入误差如下 include
如何在realm-dotnet中存储System.Collections.Generic.Dictionary

我正在尝试将 Realm NET 集成到我的 uwp 项目中我想知道是否有任何方法可以在 Realm dotnet 库中存储 System Collections Generic Dictionary 我试过这个 public class
从 C/C++ 程序进行 Ping

我想编写一个 C 或 C 程序给定一个 IP 地址对其进行 Ping 然后根据 Ping 是否成功执行进一步的操作这个怎么做尽情享受Ping 页面 http www ping127001 com pingpage htm 其中有一个

随机推荐

将数组传递给存储过程

我必须将数组和字符串传递给存储过程并返回数据表 C side public DataTable fetchRequested string empID string account string refNo string orgID str
可以在 Coq 的蕴涵中使用 destruct 吗？

destruct可以用来分割and or在柯克不过好像也可以用暗示例如我想证明 P gt P Lemma test P P gt P Proof unfold not intro pffpf apply pffpf intro pff
如何自动填写XFA（PDF）表格？

我正在寻找一个免费选项来填写 XFA PDF 表单我知道 iText 是一个选择但它们的商业价格对我来说太贵了我更喜欢完全开源的东西有 PDFBox 但它似乎不允许将数据插入 XFA 表单或者至少很少解释如何插入我只需要使用文本
Python字典查找性能，get vs in

这并不是过早的优化我的用例在内部循环的最里面对字典的权利进行了双重检查一直运行而且它在智力上也令人厌烦见结果这些方法中哪一种更快 mydict hello yes goodbye no key hello A if key in
对 BigIntegers 列表求和

我已经查看了所有内容但无法弄清楚这一点如何对 BigIntegers 列表求和 Using System Numerics Using System Linq List
具有多个组件的开盖

我正在尝试将三个单元测试项目三个不同的 dll 合并到一份 OpenCover 报告中是否可以我尝试查看过滤器但在 OpenCover Wiki 站点中没有看到足够的详细信息示例有人可以告诉我可以从哪里开始吗多谢对的这是可
错误：无法初始化客户端 | mongo-connect 快速会话

我在尝试在 mongodb 上保存会话时遇到错误这是我的代码 const express require express const session require express session const MongoStore req
与 gfortran 和 gcc 静态链接的混合语言

我有一些用 C 和 Fortran 编写的代码我想将其编译成静态链接的可执行文件如果我动态编译代码使用 fno underscoringgfortran 的选项一切正常但是我想将其链接到 so文件中静态链接大部分需要的库然后
从派生的可变参数模板类调用基模板的虚拟方法

这本质上是后续之前的一个问题 https stackoverflow com q 26351963 315052 不是我提出的但我对答案感兴趣问题是为什么编译器链接器无法解析派生类对虚函数的调用在这种情况下派生类是具有可变参数的
C# 强制执行语句的顺序

我的问题是关于 C 大概还有 Net 中的执行顺序保证我给出了我所了解的 Java 示例来进行比较对于Java 来自 Java并发实践只要在该线程内无法检测到重新排序就无法保证一个线程中的操作将按照程序给定的顺序执行即使重新排序对
haskell 优雅的方式从无限的数字列表中过滤（减少）重复序列

这是一个产生无限随机数列表的函数 import System Random values Int values map fst scanl r gen gt randomR 1 10 gen randomR 1 10 mkStdGen 1
使用 FFmpeg 根据其元数据旋转视频？为什么 Android 会放置错误的元数据？

我有一个用户上传视频的网站对于我的网站我还有一个 Android 应用程序该网站为每个上传的视频从浏览器或 Android 创建一个缩略图问题是对于普通视频来说一切都好但是对于android我的视频旋转了90 我认为 Andro
在检查条件时消除代码中嵌套 if 的最佳方法是什么？

我正在用 Java 开发一个 BlackBerry 应用程序并且有一个存储所有用户设置的选项类问题是我需要检查一些条件才能知道如何反应随着我不断添加更多功能会向用户显示更多 GUI 选项 Options 类中存储更多设置并且需要检
用逗号分隔

嘿我有这个 following user id row following user id 我得到 44443344330 然后我使用 implode 函数并用逗号分隔 44 44 33 44 33 0 但我不想要最后一个数字的最后一个逗
将字典值映射到列表

给定以下字典 dct a 3 b 3 c 5 d 3 如何将这些值应用于列表例如 lst c d a b d 为了得到类似的东西 lstval 5 3 3 3 3 Using a 列表理解 https docs python org 3
Google 警告：资源解释为 Font，但使用 MIME 类型 application/octet-stream 传输

我的字体在 Google 中收到警告资源解释为字体但使用 MIME 类型 application octet stream 传输 Content Fonts iconFont ttf 即使我有此警告它也有效但我更愿意避免此警告这里是
Gmail删除链接标签，如何避免这种情况

我正在尝试使用函数 mail 发送包含链接的富文本我正在发送这种代码 Please access a href http www site md contact en Contact a to send all these informa
从 SQL 脚本在 H2 数据库中插入长文本

我正在尝试使用 H2 的 runscript 运行 sql 脚本其中一个表包含一个长文本类型用于存储 xml 文档来自 SAP 数据库因此 Insert 语句包含较长的 XML 文本大约 200 行 XML 这相当难看但仍然可以
如何让 2 个 div 继承父 div 中具有更高高度的 div 的高度？

我在匹配父 div 内 2 个 div 的高度时遇到问题我很难解释我是在 Jsfiddle 上做的 http jsfiddle net DSQpd http jsfiddle net DSQpd 基本上我想做的是匹配高度无论哪一个更长
将字符串拆分为单词并与其他数据重新连接

我有一个使用的方法Regex寻找文本中的模式string 它可以工作但不足以继续下去因为它需要文本出现在确切的顺序而不是将短语视为一组单词 public static string HighlightExceptV1 this str

将字符串拆分为单词并与其他数据重新连接

将字符串拆分为单词并与其他数据重新连接 的相关文章

随机推荐

热门标签

将字符串拆分为单词并与其他数据重新连接的相关文章