动态正则表达式生成，用于数据馈送中可预测的重复字符串模式

2024-03-13

我目前正在尝试处理一些我无法控制的数据源，其中我使用 C# 中的正则表达式来提取信息。

数据源的发起者从数据库中提取基本行数据（如产品名称、价格等），然后在英文文本行中格式化该数据。对于每一行，一些文本是重复的静态文本，一些是从数据库动态生成的文本。

e.g

带免费蓝光播放器的松下电视

索尼电视带免费 DVD 播放器 + 票房 DVD

Kenwood Hi-Fi 设备含 20 美元 Amazon MP3 优惠券

所以本例中的格式是：PRODUCT with FREEGIFT.

PRODUCT and FREEGIFT是每行的动态部分，“with”文本是静态的。每个 feed 大约有 2000 行。

创建正则表达式来提取动态部分很简单。

问题是控制数据源的营销机构不断改变静态文本的结构，通常每两周一次，所以本周我可能会：

如果您今天订购，全新松下电视和免费蓝光播放器

全新索尼电视和免费 DVD 播放器 + 票房 DVD（如果您今天订购）

全新 Kenwood Hi-Fi 设备，如果您今天订购，还可获赠价值 20 美元的 Amazon MP3 优惠券

下周可能会有所不同，所以我必须继续修改我的正则表达式......

你会如何处理这个问题？

是否有一种算法可以确定重复字符串行中的静态和可变文本？如果是这样，使用此类算法的输出以编程方式创建动态正则表达式的最佳方法是什么？

感谢您的任何帮助或建议。

这段代码并不完美，当然也效率不高，但是很可能来不及帮助你了，但它确实有效。如果给定一组字符串，它将返回超过一定长度的公共内容。

然而，正如其他人所提到的，算法只能给您一个近似值，因为您可能会遇到一个错误的批次，其中所有产品都具有相同的初始单词，然后代码会意外地将该内容识别为静态。当动态内容与静态内容共享值时，它也可能会产生不匹配，但随着输入的样本大小的增加，出错的可能性将会缩小。

我建议在数据的子集上运行它（20000 行将是一个坏主意！）并进行某种额外的健全性检查（静态元素的最大数量等）

最后的警告：它可能做得很完美，但即使它做到了，你怎么知道哪个项目是PRODUCT哪一个是FREEGIFT?

算法

如果集合中的所有字符串都以相同的字符开头，则将该字符添加到“当前匹配”集合中，然后从所有字符串中删除前导字符
如果不是，则从第一个字符的所有字符串中删除第一个字符x（最小匹配长度）字符不包含在所有其他字符串中
一旦出现不匹配（情况 2），如果满足长度要求，则生成当前匹配
继续，直到所有字符串都用完

实施情况

private static IEnumerable<string> FindCommonContent(string[] strings, int minimumMatchLength)
{
    string sharedContent = "";

    while (strings.All(x => x.Length > 0))
    {
        var item1FirstCharacter = strings[0][0];

        if (strings.All(x => x[0] == item1FirstCharacter))
        {
            sharedContent += item1FirstCharacter;

            for (int index = 0; index < strings.Length; index++)
                strings[index] = strings[index].Substring(1);

            continue;
        }

        if (sharedContent.Length >= minimumMatchLength)
            yield return sharedContent;

        sharedContent = "";

        // If the first minMatch characters of a string aren't in all the other strings, consume the first character of that string
        for (int index = 0; index < strings.Length; index++)
        {
            string testBlock = strings[index].Substring(0, Math.Min(minimumMatchLength, strings[index].Length));

            if (!strings.All(x => x.Contains(testBlock)))
                strings[index] = strings[index].Substring(1);
        }
    }

    if (sharedContent.Length >= minimumMatchLength)
        yield return sharedContent;
}

Output

设置 1（来自您的示例）：

FindCommonContent(strings, 4);
=> "with "

设置 2（来自您的示例）：

FindCommonContent(strings, 4);
=> "Brand new ", "and a ", "if you order today"

构建正则表达式

这应该很简单：

 "{.*}" + string.Join("{.*}", FindCommonContent(strings, 4)) + "{.*}";
=> "^{.*}Brand new {.*}and a {.*}if you order today{.*}$"

尽管您可以修改算法以返回有关匹配位置的信息（在静态内容之间或之外），但这没问题，因为您知道有些匹配无论如何都会匹配零长度字符串。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

regex

string

Algorithm

Text

动态正则表达式生成，用于数据馈送中可预测的重复字符串模式的相关文章

将指针转换为浮点数？

我有一个unsigned char 通常这指向一块数据但在某些情况下指针就是数据即铸造一个int的价值unsigned char 指针 unsigned char intData unsigned char myInteger 反
使用静态类型代替变量

当您的项目不使用命名空间时有什么方法可以告诉编译器使用静态类型而不是变量吗例如我有一个名为 User 的类它具有各种静态和非静态方法假设调用了其中一个静态方法GetUser 我想称之为User GetUser 方法来自一个方法该
如何从 List 中的字符串中删除数字/数字？

我有一个字符串列表 List
基于 MS Bot Framework 中的响应分支对话框/表单

我们正在尝试使用 MS Bot Framework 但尚未完全弄清楚如何实现此场景我们有一个 LUIS 对话框类型它工作正常并且经过适当的培训以常见的三明治为例 LUIS 意图寻找的基本内容是用户询问订单状态如果问题中提供了订单号
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
控制器中的异常处理 (ASP.NET MVC)

当您自己的代码抛出异常并从控制器中的操作调用时应该如何处理我看到很多最佳实践的例子其中根本没有 try catch 语句例如从存储库访问数据 public ViewResult Index IList
如何获取带有标头的 XML (

考虑下面的简单代码它创建一个 XML 文档并显示它 XmlDocument xml new XmlDocument XmlElement root xml CreateElement root xml AppendChild root X

从窗口内容截取屏幕截图（无边框）

我正在寻找有关如何使用 C 将表单内容保存在位图中的解决方案我已经尝试过使用 DrawToBitmap 但它捕获了所有带边框的窗口这就是这段代码的结果 public static Bitmap TakeDialogScreenshot
枚举器上的 [[maybe_unused]]

查看规格 maybe unused http en cppreference com w cpp language attributes 它指出出现在类 typedef 变量非静态数据成员函数枚举或枚举器的声明中如果编译器对未使用
套接字：监听积压并接受

listen sock backlog 在我看来参数backlog限制连接数量这是我的测试代码 server initialize the sockaddr of server server sin family AF INET ser
删除队列中的最后一个元素

我需要删除队列的最后一个元素我唯一可以使用的操作是 Peek 获取第一个元素而不删除它 Enqueue element 向队列末尾插入一个元素 Dequeue 删除第一个元素 IsEmpty true 或 false 队列是否为空而且我
Qt mouseReleaseEvent() 未触发？

我有一个显示图片的库我们称之为 PictureGLWidget 其中 class PictureGLWidget public QGLWidget 所以 PictureGLWidget 扩展了 QGLWidget 在PictureGlWi
C 中什么函数可以替换字符串中的子字符串？

给定一个 char 字符串我想查找所有出现的子字符串并将其替换为备用字符串我没有看到任何简单的函数可以实现这一点
C 中的 N 依赖注入 - 比链接器定义的数组更好的方法？

Given a 库模块在下文中称为Runner 它作为可重复使用的组件无需重新编译即静态链接库中应用程序分区架构的而不是主分区请注意它仅包含main 出于演示目的 Given a set 顺序无关调用的其他模块对象Call
在 try catch 块中返回到 catch 内是否不好？这是很好的做法

在 try catch 块中从 C 中的 catch 块返回值是不好的做法吗 try Some code return 1 catch return 0 哪种使用 try catch 的方法是好的做法不需要只要返回的值是你想要的你可以
如何将 Metro 应用部署到桌面？

我正在尝试将我的 C 应用程序部署到我的 Windows 8 Metro 桌面我可以在 bin 文件夹中看到部署的文件但是当我尝试打开它们时出现以下错误该应用程序只能在 AppContainer 的上下文中运行我检查了属性上下文菜
将小数格式化为两位或整数

对于 10 我想要 10 而不是 10 00 对于 10 11 我想要 10 11 没有代码可以实现吗即通过指定格式字符串类似于 0 N2 decimal num 10 11M Console WriteLine num ToString
具有多种类型的 C# 泛型类型推断

我有以下通用方法用于将一种类型的输入对象序列化为超类型如下所示 public string SerialiseAs
FakeItEasy 代理方法调用实际实现

我正在尝试将对假对象的调用代理到实际的实现这样做的原因是我希望能够使用 Machine Specifications 的 WasToldTo 和 WhenToldTo 它们仅适用于接口类型的伪造因此我正在执行以下操作来代理对我的真实对
如何将 char 转换为 unsigned int？

我有一个字符数组它实际上用作字节数组而不是用于存储文本在数组中有两个特定字节表示我需要存储到无符号 int 值中的数值下面的代码解释了设置 char bytes bytes 2 bytes 0 0x0C For the sake

随机推荐

使用工作表格式时，text_wrap 格式会被忽略

换行文本对我不起作用我尝试了下面的代码 writer pd ExcelWriter out file name engine xlsxwriter df input to excel writer sheet name Inputs wo
从 ManagedVM 内公开多个端口

我正在使用托管 VM 功能来运行 WebSocket 服务器我希望通过以下 URL 在任何端口最好是端口 80 上向 Internet 公开该服务器 mvm mydomain com 我还没有取得多大成功以下是我用来完成此任务的各种文
如何在oracle中将2列合并（合并）为1列？

当用户输入表名和 2 个需要合并的列名时我有 3 个文本字段我应该如何将 2 列值合并组合为 1 列值我用的是oracle 11g企业版连接 select col1 col2 from tablex
Rails 收到验证失败错误，但 ActiveRecord 错误模型中没有错误

我在使用 save 保存模型时遇到验证错误问题 ActiveRecord 错误模型错误消息为空白因此我不知道验证尝试中发生了什么错误当我根据以下内容尝试errors full messages或errors each full时文档 h
如何使用 JDBI 的 Sql 对象 API 在运行时创建动态 Sql 查询？

我已经将现有项目从 jdbc 迁移到 jdbi 并且充分利用了 jdbi 漂亮的 SQL 对象 API 我们使用的是mysql 虽然 SQL 对象 API 可以构造在编译时已知的已处理查询但我找不到在运行时生成查询的方法具体来说我希望
使用 codeigniter 实现 jquery 上传插件“uploadify”

我如何在 codeigniter 中实现这个上传 Jquery http www uploadify com 我的意思是控制器是什么进度如何跟踪如果用户没有安装flashplayer会发生什么我如何检查进度有人用 codeigni
禁用日期选择器上的过去日期

如何在日期时间选择器上禁用当前日期的过去日期我尝试了一些类似问题的帖子但无法实现以下是我尝试过的
使用 HTMLDocument 在 JTextPane 中启用自动换行

我到处都读到人们寻找方法的答案enabling文字换行JTextPane 但它们都不适合我我正在使用一个HTMLDocument 显示 text html 内容到目前为止我发现没有任何东西可以让它发挥作用这JTextPane始终使 J
错误：“类别”不是注册规模

我正在尝试从以下位置迁移 Chart js2 9 3 to 3 3 0即使在应用更改之后 https www chartjs org docs latest getting started v3 migration html https w
用VB6生成Excel文件

我正在寻找有关这个具体问题的建议在 Visual Basic 6 VB6 中生成 Excel 文件常规 XLS 而不是 XLSX 的最快方法是什么多谢最简单的方法是在项目中设置对 Excel COM 对象的引用并以编程方式将所有数
如何安全关闭 mlflow ui？

运行后mlflow ui在远程服务器上我无法重新打开mlflow ui again 解决方法是使用以下命令终止服务器中的所有进程pkill u MyUserName 否则我会收到以下错误 INFO Starting gunicorn 20
猫头鹰旋转木马：到达最后一张幻灯片时运行功能

当到达轮播的最后一张幻灯片时我试图运行一个函数我已经设法使用 afterInit 和 afterMove 回调来循环轮播项目但我只需要能够在循环结束时运行一个函数希望你能帮忙 Plugin http owlgraphic com o
无法使用类型为“(Range)”的参数列表调用类型“Range”的初始值设定项

更新到 Xcode 10 beta 显然是 Swift 4 1 50 附带的后我看到以下错误我不知道如何修复无法使用类型为 Range 的参数列表调用类型 Range 的初始值设定项在以下函数中Range
如何使用 Task.Run(Func f) 方法签名？

要使用此方法 public static Task Run Action action 我只是写 void MyMethod do something Task t Task Run new Action MyMethod 但是我不明白如何
如何从 XSD 模式生成测试 XML 数据文件的集合？ [复制]

这个问题在这里已经有答案了可能的重复如何从 DTD 或 XSD 生成示例 XML 文档 https stackoverflow com questions 17106 how to generate sample xml documen
Scala 额外的无参数构造函数加上默认构造函数参数

我在构造函数上使用 Scala 2 8 默认参数并且出于 Java 兼容性原因我想要一个使用默认参数的无参数构造函数由于非常合理的原因这不起作用 class MyClass field1 String foo field2 Stri
Microsoft.office.interop.word.dll 可以在不安装 Office 的情况下工作吗？

我的 ASP Net C 应用程序与 mailmerge 和名为 Microsoft Office Interop Word dll V14 0 0 0 的 dll 一起使用我的桌面安装了 Office 上一切正常但是当这个应用程序部
C# 中继承的调用构造函数的顺序[重复]

这个问题在这里已经有答案了我刚刚在读 C 中的继承其中我遇到了构造函数并写道构造函数按照派生顺序执行这是什么意思基类构造函数将首先被调用或派生类首先调用一个基类的Constructor 参考下面的例子 Demonstrate
Java Files.copy 替换现有的完全删除文件

我有一些代码旨在打开本地主文件进行添加并通过覆盖主文件和覆盖可访问网络位置上的写保护副本来保存文件这是通过将修改后的文件保存到临时文件然后复制其他两个文件来完成的 String tempFileName File tmp Strin
动态正则表达式生成，用于数据馈送中可预测的重复字符串模式

我目前正在尝试处理一些我无法控制的数据源其中我使用 C 中的正则表达式来提取信息数据源的发起者从数据库中提取基本行数据如产品名称价格等然后在英文文本行中格式化该数据对于每一行一些文本是重复的静态文本一些是从数据库动态生成的文

动态正则表达式生成，用于数据馈送中可预测的重复字符串模式

动态正则表达式生成，用于数据馈送中可预测的重复字符串模式 的相关文章

随机推荐

热门标签

动态正则表达式生成，用于数据馈送中可预测的重复字符串模式的相关文章