在汇编中实现正则表达式“[ab][^r]+r]”的匹配器

2023-12-07

我的汇编代码需要帮助。我需要使用编写代码来找到适合我的正则表达式的范围。

我的正则表达式：[ab][^r]+r，所以首先我寻找是否有“a”或“b”并跳转到“开始”部分。现在我有一个问题如何仅保存这封信的第一次出现。程序应显示：5, 10- 这意味着，匹配的字符串从第 5 个位置开始，长度为 10。我想保存的程序结果'ecx' and 'edx'注册表（或者我可以简化它吗？）

我将不胜感激所有的建议和帮助:)

这是一个代码：

#include <stdio.h>

int main(void) 
{
  char *s = "fqr  b qabxx  xryc pqr"; // string length= 22, first occurence: 5 position, second one: 9
  int x, y;

asm volatile (
".intel_syntax noprefix;"
"mov eax, %2;"

"xor ecx, ecx;"
"xor edx, edx;"

"lea ebx, [eax];" 

"loop:"
  "mov al, [ebx];" 
  "or al, al;" 
  "jz Finish;"
  "inc edx;"

  "cmp al, 'a';" 
  "je Start;"

  "cmp al, 'b';"
  "je Start;"

  "jmp JumpNext;"

 "Start:" 
   "mov ecx, edx;"
   "jmp loop;"

  "JumpNext:"
    "inc ebx;"
    "jmp loop;"

 "Finish:"
  "mov %0, ecx;"
  "mov %1, edx;"

".att_syntax prefix;"
:"=r" (x), "=r" (y)
:"r" (s)
:"eax", "ebx", "ecx", "edx"
);

printf("%d, %d \n", x, y);
return 0; 
}

编辑：这是完成的代码：

 #include <stdio.h>


int main(void)
{
  char *s = "fqr  b qabxx xryc pqr"; 
  int x, y;

  asm volatile (
    ".intel_syntax noprefix;"

    "xor ecx, ecx;" // First occurrence of letter 'a' or 'b'
    "mov edx, 1;" // Matching string length

    "lea ebx, [%2];"

    "loop:"
      "mov al, [ebx];"
      "cmp al, 0;"
      "jz ThereisNoChars;" 

      "cmp al, 'a';" 
      "je FoundAorB;"

      "cmp al, 'b';" 
      "je FoundAorB;"

      "inc ecx;"
      "inc ebx;"
      "jmp loop;"

    "FoundAorB:"
      "inc ebx;"
      "inc edx;" 

      "mov al, [ebx];"
      "or al, al;"
      "jz ThereisNoChars;"

      "cmp al, 'r';"
      "je isRafterAorB;"
      "jne ThereIsNoR;"

    "isRafterAorB:"
      "mov edx, 1;"
      "inc ebx;" 
      "inc ecx;"
      "jmp loop;"

   "ThereIsNoR:"
      "inc ebx;"
      "inc edx;"
      "mov al,[ebx];"
      "or al, al;"
      "jz ThereisNoChars;"
      "cmp al, 'r';"
      "je Finish;"
      "jmp ThereIsNoR;"

   "ThereisNoChars:"
     "mov ecx, 0;"
     "mov edx, 0;"
     "jmp Finish;"

    "Finish:"
      "mov %0, ecx;"
      "mov %1, edx;"

    ".att_syntax prefix;"
    :"=r" (x), "=r" (y)
    :"r" (s)
    :"eax", "ebx", "ecx", "edx"
  );

  printf("%d, %d \n", x, y);
  return 0;
}

它显示预期结果(5, 10)。这意味着，匹配的正则表达式从 5 个位置开始，长度为 10

首先，你对自己的要求有点不清楚。当我第一次读你的文章时，看起来你正在尝试用汇编程序（）编写一个完整的“正则表达式”例程。但仔细观察，似乎您真正所做的只是在汇编器中“硬编码”这个非常具体的正则表达式搜索。这种误解可能就是这个问题没有得到任何答复的原因。

其次，你应该与this guy谁显然和你在同一个班级。也许你们两个可以分享笔记。

第三，有人应该与你的导师讨论他的作业。使用 gcc 的“内联汇编”来教授汇编可能是最难的方法。他讨厌他的学生吗？我对他提供的“模板”印象不深，（显然？）您不允许更改。我可以看到至少有六件事是我要改变的。

第四，你说正则表达式字符串“[ab][^r]+r”应该打印出来5, 10对于“fqr b qabxx xryc pqr”。我不知道怎么会这样。比赛确实从（从零开始）5 开始，但不是在位置 10 结束：

          1         2
0123456789012345678901
fqr  b qabxx  xryc pqr
     ^         ^
   start      end

末尾是位置 15。匹配的字符串 (b qabxx xr) is 11个字符长，所以显然您并不是在寻找长度。第二个“起点”出现在位置 8，第三个“起点”出现在位置 9，并且还有多个可能的终点。这些都没有解释你应该在哪里得到“10”。我假设你的意思是5, 15.

综上所述，处理[ab][^r]+r基本上分为 3 个部分：

[ab]查找“a”或“b”。如果找不到字符串末尾，则在遇到字符串结尾时错误退出。
[^r]+如果 (1) 后面紧跟着的字母是“r”，则转到 1。
r遍历字符串的其余部分并在下一个“r”处成功退出，或者在字符串末尾错误退出。

如果您不明白为什么是这些部分，请尝试使用https://regex101.com/r/E3nI1F/1（它可以让您尝试各种正则表达式搜索字符串以查看找到的内容）。

看看您当前的代码，我认为您没有正确处理（2）或（3）（实际上，我认为您根本没有处理它们）。虽然我会在您的代码中更改其他内容，但也许调整应该等到代码正常工作为止。

鉴于这是家庭作业，我不热衷于仅仅发布我的代码。如果你只是复制/粘贴我的作品，你就不会学到任何东西。

如果您在添加 2 和 3 的工作后想编辑您的问题，我可以再次审核或提供更多建议。如果您发布工作副本，我可以分享我的副本，我们可以对它们进行比较。

----------- 编辑 1 --------------

我的老师似乎并不讨厌我们

哦？考虑这段代码（您的简化版本）：

asm volatile (
   "xor %0, %0;"
   "mov %1, %2"
   :"=r" (x), "=r" (y)
   :"r" (s));

看起来很简单，对吧？清零x，并复制s to y。然而，由于所谓的“早期破坏”（参见'&' on https://gcc.gnu.org/onlinedocs/gcc/Modifiers.html），这是possible（不保证）优化时，gcc 将为 %0 和 %2 （或者可能是 %1 和 %2）选择相同的寄存器。因此，当您将 %0 清零时，您也可能将 %2 清零。

可以通过添加 & 符号以确保不重叠来解决此问题：

:"=&r" (x), "=&r" (y)

但你期望如何know这？了解这个细节并不能帮助你学习汇编程序。这只是 gcc 的内联汇编如何工作的一个奇怪的怪癖。如果您正在编写一个实际的汇编例程（这是我推荐的），您永远不需要知道这一点。

如果您使用符号名称，这不是更容易阅读吗？

asm volatile (
   "xor %[x], %[x];"
   "mov %[y], %[s]"
   : [x] "=&r" (x), [y] "=&r" (y)
   : [s] "r" (s));

I发现它更容易阅读。但这是另一件与汇编语言无关的事情。这只是一个关于如何在使用 gcc 时将内联 asm 推入 c 代码的技巧（你应该这样做几乎从不 do).

还有什么？此模板的一些其他问题：volatile限定符不属于这里。它缺少"cc"破坏。还有"memory"破坏。最终你会破坏比你需要的更多的寄存器。哦，为什么不直接告诉人们用-masm=intel并避免“.intel_syntax noprefix;”和“.att_syntax 前缀；”垃圾（还有更多海湾合作委员会的怪癖）。

使用汇编语言can有用的。我并不是想说事实并非如此。但尝试使用 gcc 的内联汇编充满了怪癖。由于用纯汇编程序编写的函数可以从 C 代码中调用，而且该方法没有这些问题，所以我只能得出结论，你被迫这样做是因为你对他/她很刻薄并且他/她讨厌你。

----------- 编辑2 --------------

既然您已经发布了工作代码（假设您已经修复了"arb r"），让我提供我的：

#include <stdio.h>

int main(int argc, char *argv[]) 
{
  const char *s = "fqr  b qabxx  xryc pqr"; // Succeeds with 5,11

  int x, y;

  // Assumes s is not NULL.
  // Return y=-1 on not found.

  asm volatile (
  ".intel_syntax noprefix\n\t"

     "lea ebx, [%2-1]\n\t"  // ebx is pointer to next character.
     "mov ecx, %2\n\t"      // Save this since we aren't using earlyclobber...
     "mov %1, -1\n"         // ...so at this point, %2 might be dead.

  // Note that ebx starts at s-1.

  "Phase1:\n\t"
     "inc ebx\n\t"
     "mov al, [ebx]\n\t" // Read next byte.

     "test al, al\n\t" 
     "jz Done\n\t"       // End of string.

     // Check for [ab]
     "cmp al, 'a'\n\t" 
     "je Phase2\n\t"

     "cmp al, 'b'\n\t"
     "jne Phase1\n"

     // Phase 2 - Found [ab], check for [^r]+
  "Phase2:\n\t"
     "mov al, byte ptr [ebx+1]\n\t"

     "test al, al\n\t" 
     "jz Done\n\t"     // End of string.

     "cmp al, 'r'\n\t"
     "je Phase1\n\t"   // Found [^r]+, go look for another [ab]

     "mov %0, ebx\n\t"

     // Found [ab], and no [^r]+.  Find r.
     "mov ebx, 1\n"

  "Phase3:\n\t"
     "mov al, [%0 + ebx]\n\t" // Read next byte.
     "inc ebx\n\t"

     "test al, al\n\t" 
     "jz Done\n\t"     // End of string.

     "cmp al, 'r'\n\t"
     "jne Phase3\n\t"

     // Found r.
     "sub %0, ecx\n\t" // Set (x)
     "mov %1, ebx\n"

  "Done:\n"

  ".att_syntax prefix"
  :"=r" (x), "=r" (y)
  :"r" (s)
  :"eax", "ebx", "ecx", "edx"
  );

  printf("%d, %d \n", x, y);
  return 0; 
}

它更短，并且不需要那么多寄存器（没有 edx）。虽然它还可以进一步调整，但它是解决家庭作业问题的可靠解决方案。

如果你被允许改变框架，它可能会好一点：

   // Returns y = -1 if no regex match is found.

  __asm__ (
      // ---------------------------------
      // Phase1 - look for [ab]

      "mov %[x], %[s]\n"   // Pointer to next char to read

   "Phase1:\n\t"
      "mov al, [%[x]]\n\t" // Read next byte

      "test al, al\n\t" 
      "jz NotFound\n\t"    // Hit end of string

      "inc %[x]\n\t"

      "cmp al, 'a'\n\t" 
      "je Phase2\n\t"

      "cmp al, 'b'\n\t"
      "jne Phase1\n"

      // ---------------------------------
      // Phase2 - Found [ab], Check for [^r]+
   "Phase2:\n\t"

      // x is pointing to the byte after [ab]
      "mov al, [%[x]]\n\t"  // Read next byte.

      "test al, al\n\t" 
      "jz NotFound\n\t"     // Hit end of string

      "cmp al, 'r'\n\t"
      "je Phase1\n\t"  // Found [^r]+, go look for another [ab]

      // ---------------------------------
      // Phase3 - Found [ab], and no [^r]+.  Now find r.

      // x went 1 too far back in Phase1
      "dec %[x]\n\t"

      // We know there is 1 non-r character after [ab]
      "mov %[y], 1\n"

   "Phase3:\n\t"
      "mov al, [%[x] + %[y]]\n\t" // Read next byte.
      "inc %[y]\n\t"

      "test al, al\n\t" 
      "jz NotFound\n\t"     // End of string.

      "cmp al, 'r'\n\t"
      "jne Phase3\n\t"

      // Found +r.
      "sub %[x], %[s]\n\t"  // Set x to offset
      "jmp Done\n"

   "NotFound:\n\t"
      "mov %[y], -1\n"

   "Done:"

   : [x] "=&r" (x), [y] "=&r" (y)
   : [s] "r" (s)
   : "eax", "cc", "memory");

主要变化是：

假设代码是用-masm=intel.
更改自"=r" to "=&r"。这保证了x, y and s所有这些最终都在单独的寄存器中。
使用符号名称。而不是参考x as %0，我们可以使用这个名字%[x].
由于此代码读取内存并修改标志，因此我添加了“cc”和“内存”破坏者。
删除不需要的volatile.

这会破坏更少的寄存器（只有 eax）。虽然使用寄存器并不是“坏”（没有它们很难做很多事情），但是您保留的寄存器越多，以便在您的应用程序中使用。asm，编译器在调用代码之前释放这些寄存器所需要做的工作就越多。自从x, y and s are already在寄存器中（由于"r"），利用它们可以简化代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在汇编中实现正则表达式“[ab][^r]+r]”的匹配器的相关文章

C++：创建一个由用户输入大小的数组

我想知道我们是否可以创建一个具有用户指定大小的数组 Ex int a cout lt lt Enter desired size of the array cin gt gt a int array a 上面的程序将不起作用因为数组大小必
在 C/C++ 中读取和写入二进制文件的中间部分

如果我有一个大的二进制文件假设它有 100 000 000 个浮点数 C 或 C 有没有办法打开文件并读取特定的浮点数而不必将整个文件加载到内存中即我如何快速找出第 62 821 214 个浮点是什么第二个问题有没有办法更改文件中
何时在定义上下文或实例化点中发生非依赖名称的重载解析？

3 4 基本 lookup p1 重载解析 13 3 在名称查找成功后发生 void g long void g int int template
了解子表单何时关闭

我有一个带有按钮的 Form1 当您单击按钮时将执行以下代码块 Form2 frm new Form2 frm Name Form musteriNumarasi ToString frm Text Kullan c musteriNum
此上下文中仅支持实体类型、枚举类型或基本类型

我目前正在开发一个搜索页面我只需要返回主题的主题详细信息列表其中包含存储在 int ST 中的所有主题标签 id 目前 ST null true ST Contains b ThemeTagID 行似乎给了我一个错误附加信息无法创建
使用不存在和联接的 SQL 查询到 LINQ 语法

我的 SQL 查询如下所示在 SQL 中运行良好我需要将其转换为 LINQ 语法 SQL SELECT Key Id FROM LocalizationKeys AS lk WHERE NOT EXISTS SELECT 1 FROM
c++1y 模式下的 Clang >= 3.3 无法解析标头

我有一个项目可以在 g 4 8 1 和 c 11 模式下 clang gt 3 3 下正确编译和运行然而当我切换到实验时 std c 1y模式下 clang 3 3 但不是 g 在
ReportViewer“缺少 URL 参数：名称”

在一个网络应用程序中我正在处理 ReportViewer 时不断出现错误缺少 URL 参数名称我找到了原因但没有找到解决方案导致报告查看器出现异常的 url Reserved ReportViewerWebControl axd
C 中经过的时间

include
是否可以在三元表达式上只放置一个选项？

我只是好奇这是否可能或者是否有办法使它成为 C 的有效语法 expression value do nothing here or put some empty block like SomeClass SomeMethod Edit 为
最好的 C++ 编译器是哪个？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 Datagridview 中为图像列提供超链接

如何在winforms中超链接到DataGridViewImageColumn OP 评论中的代码示例 DataGridView dgv new DataGridView dgv Name dgv i dgv DataSource dsMa
如何存储将被多个不同类访问的字符串常量？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案关于堆栈溢出有太多不同的答案声明一个命名空间并在 hpp 文件中将所有字符串标记为 extern const 并在 cpp 文件中放置它们的
使用指针隐藏实现（Pimpl 惯用语）

是否有可能实现以下目标 x hpp 该文件被许多其他类包含 class x impl forward declare class x public methods private x impl impl x cpp 实施 include
在 C 或 C++ 中使用逗号作为宏名称

我想做这样的事情 define define MAX 10 000 000 undef 有什么技巧可以做到吗编辑我知道 C 14 中的数字分隔符我正在寻找一种技巧来对不兼容的编译器执行相同的操作 EDIT2 请考虑Variadic M
让 AutoMapper 自动映射前缀属性

我希望 AutoMapper 自动映射成员如下所示 class Model public int ModelId get set class ModelDto public int Id get set 在这里我会做一个 CreateM
使用 CryptUnprotectData 解密 WEP wlan 配置文件密钥

我正在尝试使用解密 WEP 配置文件的密钥加密解除数据保护 http msdn microsoft com en us library windows desktop aa380882 28v vs 85 29 aspx 我获取配置文件密钥
在C中更改函数内的数组

我正在学习 C 并且很困惑为什么在 main 中创建的数组不会在函数内部更改我假设传递的数组是一个指针并且更改指针应该更改数组对吧有人可以解释这种情况下发生了什么吗谢谢你的帮助 int main int i length 10 i
从 Asp.Net Core 控制器返回 IAsyncEnumerable 和 NotFound

返回一个控制器操作的正确签名是什么IAsyncEnumerable
如何包装实体框架以在执行前拦截 LINQ 表达式？

我想在执行之前重写 LINQ 表达式的某些部分我在将重写器注入正确的位置时遇到问题实际上根本没有查看实体框架源代码在反射器中它最终归结为IQueryProvider Execute在 EF 中它通过以下方式耦合到表达式Objec

随机推荐

C# 中同步线程访问和写入

我有一个用 C 编写的多线程端口扫描仪应用程序我想在应用程序运行时将一些内容打印到控制台和日志文件因此我有以下帮助程序类它可以很好地写入日志文件和控制台 public class Output private const strin
R data.table - 将函数 A 应用于某些列，将函数 B 应用于其他一些列

我想聚合数据表的行但聚合函数取决于列的名称例如如果列名称是 variable1 or variable2 然后应用mean 功能 variable3 然后应用max 功能 variable4 然后应用sd 功能我的数据表总是有一个d
带按钮的 Html 两种语言选项（无需重定向到不同页面）

我正在尝试为网站提供第二语言选项以下是该项目的详细信息 1 我并没有尝试使用谷歌翻译系统或任何其他自动翻译服务来更改整个网站语言 2 我只是想翻译网站中的主要描述部分 3 我已经编写并保存了描述文本的翻译版本 4 我还在一个单独的文件中制
如何正确观察非标准事件？

我是反应式扩展的新手正在处理一个具有如下定义事件的 COM 库 public delegate void MyDelegate int requestId double price int amount public event MyDe
OSError：安装 h2o 时版本不匹配？

我是 H2o 新手总部设在文档我为 python 安装了 H2o pip install h2o Then In import h2o h2o init Out OSError Traceback most recent call las
如何将无符号整数加载到 SIMD 中

我有一个 C 程序其中有一些无符号整数数组我正在使用这个声明uint32 t 我想使用 SIMD 对每个数组中存储的数据执行一些操作这就是我陷入困境的地方因为看起来大多数 SSE 和 SSE2 函数只支持 float 和 doubl
如何从动态范围中分割文本？

我从 ERP 系统下载了一个很长的数据集他们是管子划定的我必须将其拆分为单独的列我可以用FILTERXML or TEXTSPLIT 将它们拆分为列我试图动态使用 Textsplit 函数以便如果有任何新数据到达末尾行它会自动
Swift 的 Guard 关键字

Swift 2 引入了guard关键字可用于确保各种数据已配置就绪我看到的一个例子这个网站演示了一个submitTapped函数 func submitTapped guard username text characters coun
javascript for循环更改原始列表变量

我有一个名为响应的对象集合我正在创建另一个名为的变量object这是一个空对象并创建object array并将其设置为响应变量我想我正在创建一个新的范围但是如果我在里面设置年龄object array作为空这将我的响应数组中的年
确定设备是智能手机还是平板电脑？ [复制]

这个问题在这里已经有答案了我想获取有关设备的信息看看它是智能手机还是平板电脑我该怎么做我想根据设备类型显示资源中的不同网页 String s Debug infos s n OS Version System getProperty
Home 键转到 Visual Studio Code 中的行首吗？

Visual Studio Code 中使 Home 键转到行首的选项在哪里现在你必须做 Home Home or Home Ctrl Left Arrow 我希望 home 位于该行的开头奖金闲聊文件首选项键盘快捷键奖励阅读
为什么如果 EOF 是行中的第一个字符，就会被识别？

我写了这个C程序 include
如何向每个 Angular.js $http 请求添加添加请求参数（例如启动 xdebug 会话）

我的混合应用程序基于 AngularJS 并使用 php REST api 我想直接从我的 Angular 应用程序调试 php api 而不是使用 REST 控制台或 Postman 它将节省大量时间特别是对于 POST 和 PUT 请
Sed 正则表达式更改文件

我未成功尝试替换 Magento local xml 文件连接字符串文件中的数据库主机条目该行如下
Python搜索目录，列出文件的基本名称，没有扩展名

我想知道我是否可以修改我的代码以仅发布文件的基本名称而不是包括扩展名的整个文件我是 python 新手所以我不太了解而且我不知道不想修改某些东西并使其完全损坏 import glob import os os chdir C hea
进程运行时不断打印子进程输出

要从 Python 脚本启动程序我使用以下方法 def execute command process subprocess Popen command shell True stdout subprocess PIPE stderr s
在 Python 中将 SQLite 3 数据存储为变量

我是否可以获取存储在 sqlite3 表中的数据并将其用作 Python 变量我正在寻找可能类似于此伪代码的内容 import sqlite3 conn sqlite3 connect DATABASE cursor conn curso
替换 pandas dataframe 列中的特定值，否则将列转换为数字

给定以下 pandas 数据框 AgeAt X AgeAt Y AgeAt Z 0 Older than 100 Olde
React-router v6 私有路由不能正常工作

我想用react router V6实现私有和公共路由我已经尝试了StackOverflow上所有可用的解决方案它似乎不起作用这就是为什么我需要澄清 App tsx
在汇编中实现正则表达式“[ab][^r]+r]”的匹配器

我的汇编代码需要帮助我需要使用编写代码来找到适合我的正则表达式的范围我的正则表达式 ab r r 所以首先我寻找是否有 a 或 b 并跳转到开始部分现在我有一个问题如何仅保存这封信的第一次出现程序应显示 5 10 这意味着匹配

在汇编中实现正则表达式“[ab][^r]+r]”的匹配器

在汇编中实现正则表达式“[ab][^r]+r]”的匹配器 的相关文章

随机推荐

热门标签

在汇编中实现正则表达式“[ab][^r]+r]”的匹配器的相关文章