字符串中的智能模式匹配

2024-04-16

假设我的文件名格式不同。我希望能够像人类一样从所述文件名中提取某些方面；模式识别。

显然，我可以使用正则表达式来暴力破解自己，但这不是我想要的。假设我有这 4 个字符串：

[MAS] Hayate no Gotoku!! 20 [BD 720p] [21D138F8].mkv
[Leopard-Raws] Akatsuki no Yona - 05 RAW (MX 1280x720 x264 AAC).mp4
[BLAST] Wolf Girl and Black Prince - 05 [720p] [C1252A5E].mkv
[sage]_Mobile_Suit_Gundam_AGE_-_36_[720p][10bit][45C9E0D0].mkv

正如您所看到的，所有这些文件名都有一定的模式，但并不完全相同。所以正则表达式的灵丹妙药并不能解决这个问题。相反，我想研究计算智能技术，例如人工神经网络或其他聪明的想法来解决这个问题。

假设我们要提取文件名。人类会返回这些值：

Hayate no Gotoku!!
Akatsuki no Yona
Wolf Girl and Black Prince
Mobile Suit Gundam AGE

或剧集编号：20, 05, 05, 36。你明白我的意思了。

哪些建议的技术有助于实现预期的结果，或者这是大学正在研究但仍然没有解决方案的东西？

你正在寻找的东西叫做语法归纳 http://en.wikipedia.org/wiki/Induction_of_regular_languages它可以工作，但是让程序找出匹配某些字符串但不匹配其他字符串的正则表达式（或某种其他类型的模式）。然而，您必须自己给它字符串，称为训练集，其中包含正例（应匹配的字符串）和负例（不应匹配的字符串）。

一种有趣的技术称为boosting http://en.wikipedia.org/wiki/Boosting_(machine_learning)在那里你可以学到很多简单的模式，这些模式是精确的（不匹配负面例子），但只匹配一些正面例子；然而，当组合在一起时，将匹配大量的正例。

由于您想要提取子字符串而不仅仅是匹配字符串，因此我的方法是获取文件名的前缀并尝试匹配它们。这样你就知道子字符串从哪里开始。这是一个例子：

Positives:
[MAS] 
[Leopard-Raws] 
[BLAST] 
[sage]_

Negatives:
[MAS] H
[Leopard-Raws] Akat
[BL
[sage]_Mobile_Suit_Gundam_AGE_

如果操作正确，您应该获得一个可以在文件名前缀上使用的正则表达式。通过一次增加一个字母的前缀，您可以知道感兴趣的内容从哪里开始。像这样：

[ False
[s False
[sa False
[sag False
[sage False
[sage] True
[sage]_ True
[sage]_M False

这里发生的事情是，我将文件名的前缀一次增加一个字符，直到我学到的正则表达式与它匹配。但我也想找到匹配的最长前缀（因为否则我会错过下划线，因为 [sage] 也是一个可接受的前缀），所以我继续前进，直到正则表达式停止匹配。这样我就知道实际内容开始之前的前缀是“[sage]_”。您也可以通过使用包含感兴趣内容的前缀来执行相同的操作来匹配结束位置。

要了解正则表达式学习，请参阅此post https://stackoverflow.com/questions/616292/is-it-possible-for-a-computer-to-learn-a-regular-expression-by-user-provided-e。请记住，自动学习永远不会完美，但您使用的示例越多，它就会越准确。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

字符串中的智能模式匹配的相关文章

如何从 m3u 字符串中检索变量=“值”对

我有 m3u 文件其中包含类似示例的行 EXTINF 0 ExtFilter Viva group title Variedades tvg logo logo Viva png tvg name Viva 我在 PHP 中运行此命令但没
使用 .htaccess 重定向到动态相对路径？

是否可以使 htaccess 理解动态相对路径并正确重定向到它们我的设置如下 http domain com htroot aaa xyz http domain com htroot bbb xyz http domain com h
为什么该字符串的长度比其中的字符数长？

这段代码 string a abc string b A C Console WriteLine Length a 0 a Length Console WriteLine Length b 0 b Length outputs Lengt
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
libxml2 xmlChar * 到 std::wstring

libxml2似乎将所有字符串存储在 UTF 8 中如xmlChar xmlChar This is a basic byte in an UTF 8 encoded string It s unsigned allowing to pi
如何使用 php 从字符串中提取日期

我需要从字符串中提取日期下面是我的代码和字符串 str Updated status to Masters Software Engineering Enrolled Documents to Send on 03 06 2014 14
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
在 OSX 和 GNU 中使用“find”删除带有数字的文件名

我正在尝试搜索一个文件并删除名称中包含数字的类似文件我的文件 txt from myfile 00 04 version txt myfile 00 txt find E iregex myfile 0 9 1 txt 删除 myfile
需要正则表达式（使用 C#）将所有空白压缩为单个空白

我需要将文档中的多个空格替换为单个空格每次迭代无论它们是空格制表符还是换行符任何类型的空格的任何组合都需要被截断为单个空格假设我们有字符串 Hello t t n t n world 其中 t 和 n 分别代表制表符和换行符那么
对在 C++ 应用程序中作为函数参数传递的文件运行“iconv”命令

我正在尝试将 Windows 文件 CP1252 格式转换为 Linux 应用程序的 UTF 8 格式我想在我的 C 应用程序中运行以下命令 iconv f CP1252 t UTF 8 file ldf dos2unix gt out
正则表达式允许零，只要它不是第一个数字[重复]

这个问题在这里已经有答案了昨天我在这里发布了一个问题正则表达式允许 null 或 1 到 9 数字 https stackoverflow com questions 40354842 regular expression allow n
如何在Matlab中打印带有千位分隔符的整数？

我想使用逗号作为千位分隔符将数字转换为字符串就像是 x 120501231 21 str sprintf 0 0f x 但随着效果 str 120 501 231 21 如果内置fprintf sprintf做不到我想可以使用正则表达式
正则表达式将单词的开头和结尾与元音匹配

我正在尝试以下操作Regex aeiou aeiou 但它不起作用我测试了 abcda 并且不匹配它应该只是 aeiou aeiou 额外的您需要第二个字符是一个文字点例如 a hello 但由于您的测试用例 abcda 不包含这样
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
如何在正则表达式中输入“：”（“冒号”）？

冒号在正则表达式中具有特殊含义但我需要按原样使用它例如 A Za z0 9 我试图逃避它但这不起作用 A Za z0 9 在大多数正则表达式实现包括 Java 的中无论在字符类内部还是外部都没有特殊含义您的问题很可能是由于
匹配括号内任何字符的正则表达式

尝试创建一个与括号内的任何字符匹配的正则表达式我的正则表达式模式是这样的 preg match listanswer answer 括号内的所有字符串都是匹配模式但问题是当我尝试匹配例如 this word sample data 它
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
为什么在 C# 中使用 String.Concat()？

我想知道这个问题有一段时间了为什么使用String Concat 而不是使用操作员我明白了String Format因为它是一个空洞使用运算符并使您的代码看起来更好例如 string one bob string two jim
toUpperCase() 方法什么时候创建一个新对象？

public class Child public static void main String args String x new String ABC String y x toUpperCase System out println
如何在 jQuery 中将标题转换为 URL slug？

我正在 CodeIgniter 中开发一个应用程序我试图在表单上创建一个字段来动态生成URL slug 我想做的是删除标点符号将其转换为小写然后用连字符替换空格例如 Shane s Rib Shack 将变成 shanes rib

随机推荐

使用 jquery UI 下一个按钮提交输入字段值，php 回显结果

我当前正在使用 jquery ui 选项卡仅适用于下一个上一个按钮和文本区域我开发了一个 ajax js 函数它将自动提交存储在文本区域中的值并在 tab 2 中回显结果但我目前想将自动提交表单的方法更改为当用户单击下一步
在 Xcode 4 中编译 Java

我知道这个问题已经流传了很长时间 Xcode 4 中的 Java 我不需要任何建议 Eclipse Netbeans 例如我只想在 XCode4 而不是 3 中编译一些简单的 Java 代码我设法创建了一个文件正如预期的那样语法和一
如何使 QPlainTextEdit 看起来像 .txt 文件？

我有一个 QPlainTextEdit 它以表格形式显示一些信息并且我添加了将其另存为 txt 文件的选项我建了桌子漂亮的 https pypi python org pypi PrettyTable 当我打开 txt 文件时它看起来
Android 平台中的推送通知

我正在寻找编写一个从服务器接收推送警报的应用程序我找到了几种方法来做到这一点 SMS 拦截传入的 SMS 并从服务器发起拉取定期轮询服务器每个都有其自身的局限性短信不保证到达时间轮询可能会耗尽电池电量请问您有更好的建议吗非常
再次：CSS、UL/OL：自定义计数器的缩进不正确

我在中描述了我原来的问题这个线程 https stackoverflow com questions 16521330 css ul ol incorrect indent with custom counter 简而言之当在 UL 中使
php 字符串转十六进制并带有 2 的补码：

嗨我有一根绳子193390663我想将其转换为hex with 2 s compliment 输出是0B86E847 现在我正在使用下面的功能但它给了我313933333930363633 public static function
为什么push指令会改变rsp的值？ [复制]

这个问题在这里已经有答案了我正在检查 Ericksons Hacking The Art of Exploitation 中的这段代码片段 void test function int a int b int c int d int fl
JMS 客户端应用程序错误。无法使用 URL 连接

我正在 C 上编写客户端应用程序以连接到我的本地 JMS Weblogic Server 12c 我尝试使用这里的示例代码 http docs oracle com cd E15523 01 web 1111 e13746 app exam
创建和使用 Android 的 ContentProvider

当我调用 Android ContentProvider 时出现以下异常 java lang RuntimeException 无法开始活动 ComponentInfo de harm android couchone de harm
在水平列表上使用鼠标滚轮进行水平滚动

我正在尝试使用鼠标滚轮进行水平滚动但似乎不起作用这是我的Fiddle http jsfiddle net a3j1x47a 我的主课 selector是一个可滚动的overflow 这是 JS 我正在尝试用它初始化滚动 selector
如何使用quartz搜索pdf文档中的文本

我正在使用quartz 来显示pdf 我需要获取搜索文本所在页面的索引有人可以帮助我吗谢谢解决方案有一个代码示例用于从页面中提取文本并检查其序列 import
在类中使用 requestAnimationFrame

我不知道如何使用requestAnimationFrame在课堂上这段代码工作正常 window onload function var width 20 function animation width var element docu
JUnit：如何按照 Spring 的预期访问 Spring 配置？

有一个教程视频 http www infoq com presentations Mastering Spring MVC 3介绍了 Spring MVC 3 0 在演示项目中他们使用以下目录结构
C++ 如何在删除前一个内容后使用同一行打印文本？

我想打印一行然后删除它然后在同一行中打印另一行我想要这个因为我不会丢失或返回太多信息来获取在循环之前打印的信息例如Processing file
为什么我们真的需要多个 Netty boss 线程？

我真的很困惑老板组的线程数量我无法弄清楚我们需要多个老板线程的场景在Boss 组是否需要多个线程 https stackoverflow com questions 22280916 do we need more than a sin
F找出打开所有灯泡的最少开关数量

我试图理解给出的问题here http qa geeksforgeeks org 4118 find the minimum number switches you have press turn all bulbs及其解决方案问题指出
Laravel - 验证 |输入字段应该是两个值之一

我正在尝试验证表单请求并且我想接受该字段test如果它有一个值或ABC or XYZ 我怎样才能实现这个目标我目前有 request gt validate test gt required unique tests Laravel 文
Spring RequestBodyAdvice 没有被模拟 MVC 框架工作，它如何为 ResponseBodyAdvice 工作

我们正在使用 Spring 4 2 0 RELEASE 并实现RequestBodyAdvice and ResponseBodyAdvice解析请求和响应主体的建议当我们尝试使用 spring 测试框架编写模拟单元测试时它仅获取 Re
即使所有消息都成功从服务器发送，某些设备也不会收到 GCM 推送

我们正在开发一个使用 GCM 的应用程序它在大多数手机上运行良好但是我们有两部手机 galaxy note 2 和 Galaxy s plus 收不到消息或者可能只是广播接收器没有被调用服务器端推送 data array data
字符串中的智能模式匹配

假设我的文件名格式不同我希望能够像人类一样从所述文件名中提取某些方面模式识别显然我可以使用正则表达式来暴力破解自己但这不是我想要的假设我有这 4 个字符串 MAS Hayate no Gotoku 20 BD 720p 21D1

字符串中的智能模式匹配

字符串中的智能模式匹配 的相关文章

随机推荐

热门标签

字符串中的智能模式匹配的相关文章