如何改进多次 StringReplace 调用？

2024-04-12

我从客户那里读取文件，我需要处理读取的数据并删除一些不需要的字符。我的函数有效，但我正在尝试改进 FixData 函数以提高速度/性能和可维护性。

是否可以将多个 StringReplace 调用替换为仅循环一次数据并替换为所需的任何内容的调用？

我找不到 MultipleStringReplace 或类似的函数。

MCVE:

function FixData(const vStr:string):string;
var i:integer;
begin
  Result:=vStr;

  // empty string
  if Result = #0 then Result := '';

  // fix just New line indicator
  if Result = #13#10 then  Result := #8;

  // remove 'end'/#0  characters
    if Pos(#0, Result) > 0 then
      for i := 1 to Length(Result) do
        if Result[i] = #0 then
          Result[i] := ' ';

    //  #$D#$A  -> #8
    if Pos(#$D#$A, Result) > 0 then
      Result := StringReplace(Result, #$D#$A, #8, [rfReplaceAll]);

    // remove &#xD
    if Pos('&#xD;', Result) > 0 then
      Result := StringReplace(Result, '&#xD;', '', [rfReplaceAll]);

    // #$A -> #8
    if Pos(#$A, Result) > 0 then
      Result := StringReplace(Result, #$A, #8, [rfReplaceAll]);

    // replace " with temp_replacement value
    if Pos(chr(34), Result) > 0 then
      Result := StringReplace(Result, chr(34), '\_/', [rfReplaceAll]);
end;

procedure TForm1.Button1Click(Sender: TObject);
var vStr,vFixedStr:string;
begin
  vStr:='testingmystr:"quotest" - '+#0+' substr &#xD; new line '#$A' 2nd line '#$D#$A' end of data';
  vFixedStr:=FixData(vStr);
end;

我想，您必须将字符串拆分为一组字符串（非分隔符和分隔符（模式）），然后替换数组中的项目，然后再次将它们组合回来。您将从较长的模式开始，然后转向较短的模式（针对模式内模式的安全检查），然后额外的运行将进行一个字符到一个字符的替换（因为它们可以就地完成并且不需要内存复制）。

双重复制，搜索缩放为 O(Length(input)*Count(Delimiters))。

像这样的伪代码草案（没有实现到最后一个点，只是为了让你有这个想法）：

由于您的模式很短，我认为线性搜索就可以了，否则需要更优化但复杂的算法： https://en.wikipedia.org/wiki/String_searching_algorithm#Algorithms_using_a_finite_set_of_patterns https://en.wikipedia.org/wiki/String_searching_algorithm#Algorithms_using_a_finite_set_of_patterns

将其散列为您认为合适的更小的函数，以便于理解/维护。

Type TReplaceItem = record (match, subst: string; position: integer);
var matches: array of TReplaceItem;

SetLength(matches, 3);
matches[0].match := '&#xD;'; // most long first;
  matches[0].subst := ''; 
matches[1].match := #$D#$A; // most long first;
  matches[1].subst := #8; 
matches[2].match := #34; // most long first;
  matches[2].subst := '\_/'; 

sb := TStringBuilder.Create( 2*Length(InputString) ); 
// or TList<String>, or iJclStringList of Jedi CodeLib, or TStringList... depending on performance and preferences
// Capacity parameter is for - warming up, pre-allocating memory that is "usually enough" 
try    

  NextLetterToParse := 1;
  for I := Low(matches) to high(matches) do
    matches[I].position := PosEx(matches[I].match, InputString, NextLetterToParse ); 

  While True do begin

     ClosestMatchIdx := -1;

     ClosestMatchPos := { minimal match[???].Position that is >= NextLetterToParse };
     ClosestMatchIdx := {index - that very [???] above - of the minimum, IF ANY, or remains -1}

     if ClosestMatchIdx < 0 {we have no more matches} then begin

      //dump ALL the remaining not-yet-parsed rest
        SB.Append( Copy( InputString, NextLetterToParse , Length(InputString));

      // exit stage1: splitting loop
        break;
     end;

     // dumping the before-any-next-delimiter part of not-parsed-yet tail of the input
     // there may be none - delimiters could go one after another
     if ClosestMatchPos > NextLetterToParse then
         SB.Append( Copy( InputString, NextLetterToParse, ClosestMatchPos-NextLetterToParse);

     // dumping the instead-of-delimiter pattern
     SB.Append( matches[ ClosestMatchIdx ].Subst );

     ShiftLength := (ClosestMatchPos - NextLetterToParse) + Length(matches[ ClosestMatchIdx ].Match); 
     // that extra part got already dumped now

     Inc( NextLetterToParse, ShiftLength);

     for I := Low(matches) to high(matches) do
       if matches[I].position < NextLetterToParse then
          matches[I].position := PosEx(matches[I].match, InputString, NextLetterToParse ); 
     // updating next closest positions for every affected delimiter,
     // those that were a bit too far to be affected ( usually all 
     // but the one being dumped) need not to be re-scanned 

  end; // next stage 1 loop iteration

现在我们有一个容器/数组/列表/任何由不匹配的块和替换的模式组成的东西。除了就地一字符替换之外。是时候合并并进行最后一次扫描了。

Stage2String := SB.ToString();

finally 
  SB.Destroy; 
end;

for I := 1 to Length( Stage2String ) do
  case Stage2String[I] of
    #0: Stage2String[I] := #32;

    #10, #13: Stage2String[I] := #8;
    // BTW - ^M=#13=#$D sometimes can be met without trailing ^J=#10=#$A
    // that was the end-of-line char used in old Macintosh text files

    else ; // do nothing, let it stay as is
  end;

Result := Stage2String;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何改进多次 StringReplace 调用？的相关文章

删除字符串 C 的第一个字符

我试图删除字符串的第一个字符并保留其余部分我当前的代码无法编译我对如何修复它感到困惑 My code char newStr char charBuffer int len strlen charBuffer int i 1 char
液体字符串中的转义字符

我正在尝试将包含各种尺寸的标签列表放在一起在 Shopify 中使用 Liquid 尺寸使用单引号和双引号表示英寸和英尺因为它同时使用两者所以会导致字符串正确关闭的问题我尝试过使用标准转义字符但这似乎不起作用是否可以在 Liqu
将小数格式化为两位或整数

对于 10 我想要 10 而不是 10 00 对于 10 11 我想要 10 11 没有代码可以实现吗即通过指定格式字符串类似于 0 N2 decimal num 10 11M Console WriteLine num ToString
每第 n 个字符分割一个字符串

在 JavaScript 中这就是我们如何在每 3 个字符处分割一个字符串 foobarspam match 1 3 g 我正在尝试弄清楚如何在 Java 中做到这一点有什么指点吗你可以这样做 String s 1234567890
strlen - 字符串的长度有时会增加 1

我正在做一些 C 智力题在大多数情况下我能够找到正确的答案但我遇到了问题我通过使用编译器知道正确的答案但我不知道原因看一下代码 char c abc 012 0x34 什么会strlen c 返回使用标准 C 编译器我的编译
DELPHI 和 WANT 或 NANT

We use 巡航控制 net http confluence public thoughtworks org display CCNET Welcome to CruiseControl NET在 Delphi 2006 应用程序中进行持
如何将从 date_parse 返回的日期数组转换回日期字符串

我有一个由 php 例程 date parse 返回的格式的日期数组我需要将此日期数组转换回日期字符串我正在寻找一个与 date parse 例程相反的函数这是一个接受日期数组作为参数并返回日期字符串的函数 http php net
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
为什么该字符串的长度比其中的字符数长？

这段代码 string a abc string b A C Console WriteLine Length a 0 a Length Console WriteLine Length b 0 b Length outputs Lengt
Objective-C 使用字符串池吗？

我知道Java https stackoverflow com questions 3801343 what is string pool in java and C http msdn microsoft com en us librar
C# 中单个 & 符号的第二个含义是什么？

我在 C 中使用了单个与号来表示检查second条件语句即使第一个是false 但以下似乎是不同的意思 of 总而言之谁能解释一下如何i 1在下面的例子中有效吗 List
如何在 C++ 中将 CString 转换为 double？

我如何转换CString to a double在 C 中 Unicode 支持也很好 Thanks A CString可以转换为LPCTSTR 这基本上是一个const char const wchar t 在 Unicode 版本中知
libxml2 xmlChar * 到 std::wstring

libxml2似乎将所有字符串存储在 UTF 8 中如xmlChar xmlChar This is a basic byte in an UTF 8 encoded string It s unsigned allowing to pi
如何从 PHP 中的字符串创建可能的字符串组合？

如何从 PHP 中的字符串创建可能的字符串组合 Exp input abc output array 0 gt a 1 gt ab 2 gt abc 3 gt ac 4 gt acb 5 gt b 6 gt ba 7 gt bac 8 gt
Delphi 5 的哈希表实现 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您知道 Delphi 5 的良好且免费的哈希表实现吗我需要在哈希表中组织大量数据并且我有点担心在网
当第二个参数包含运算符号时，为什么 ltrim 会删除一个字符？ [复制]

这个问题在这里已经有答案了 If I do ltrim 53 34567 53 ltrim 53 34567 53 ltrim 53 34567 53 I get 4567作为结果而不是34567 这种行为的解释是什么 ltrim 53 3
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
PHP 的 mb_internal_encoding 实际上是做什么的？

根据 PHP 网站 http www php net manual en function mb internal encoding php它这样做 coding 是用于 HTTP 输入的字符编码名称字符编码转换 HTTP输出字符编码转
如何释放 TInterfacedObject 中的 TObject 成员

我知道接口对象是引用计数的因此不需要手动释放它但如果它有一个 TObject 继承成员我是否应该在析构函数中手动释放该成员考虑以下代码 program Project2 APPTYPE CONSOLE R res uses Syst
如何在c中的某个位置终止字符指针？

我试图通过设置空终止符来终止 c 中的字符指针在特定位置例如如果我有一个 char 指针 char hi hello 我希望它是 hell 通过设置o为空我尝试过使用 strcpy 来执行此操作例如 strcpy hi 4 0 但

随机推荐

Android Volley 库无法处理 204 和空主体响应

我正在使用最新的 Volley 库当我的 api 返回 204 且响应中没有正文时我遇到了问题 BasicNetwork java 中的以下代码似乎未按预期工作 Some responses such as 204s do not ha
在 junit 中模拟 System.getenv 调用时遇到问题

我正在尝试使用 junit 和mockito 对此非常新为 Spring Boot 应用程序编写单元测试基本上在我的代码中我已经为 manifest yml 文件用于部署中的特定 URL 指定了一个环境变量我可以通过它访问Str
Object.assign 未按预期工作

我有一个名为 bookings 的对象其中有几个属性我想使用 Object assign 进行扩展如下所示 let data Object assign booking hiw event hiw booking locale tip
如何在启用视觉样式的情况下将控件渲染为看起来像 ComboBox？

我有一个模仿的控件ComboBox 我想渲染该控件以便该控件border看起来像标准的Windows 组合框具体来说我遵循了 MSDN 文档除了禁用控件时的渲染之外所有控件的渲染都是正确的需要明确的是这是针对具有视觉风格已启用
ASP .NET 单例

只是想确保我在这里没有假设一些愚蠢的事情在 ASP Net Web 应用程序中实现单例模式时静态变量范围仅适用于当前用户会话对吧如果第二个用户正在访问该站点那么它是不同的内存范围静态成员仅具有当前工作进程的作用域因此与用户无关
为什么 LINQPad 将枚举整数值转储为字符串？

我使用 LinqPad 来测试一些 Enum 函数但在使用 Dump 时没有得到像我预期的整数为什么 ToList 解决了这个问题 void Main Enum GetValues typeof Options Cast
Gas 与 nasm：哪个汇编器生成最好的代码？

这两种工具都将汇编指令直接翻译成机器代码但是是否有可能确定哪一个生成最快最干净的代码当你用汇编程序编写时您正在准确地描述生成的指令所以它不依赖于汇编器这取决于你您编写的助记符与机器代码中的实际指令之间存在一一对应的关系
原始（二进制）数据太大而无法写入磁盘。如何按块写入磁盘（附加）？

我在 R 中有一个很大的原始向量即二进制数据数组我想将其写入磁盘但我收到一条错误消息告诉我该向量太大这是一个可重现的示例和我收到的错误 gt writeBin raw 1024 1024 1024 2 test bin Error
jqgrid按文本问题对列进行排序

我在我的网站中使用了 jqgrid 但遇到了一个问题我做了什么 name type index type width 40 editable true edittype select sorttype text editoptions v
SASS 将特定属性从父级扩展/共享/继承到子级，反之亦然

是否可以将所选特定属性从父级扩展到共享给子级例如不创建变量 main container padding 20px margin 20px ul padding parentPadding margin 0 或相反亦然就你而言 ma
在 Fortran 中读取行数已知但每行条目数未知的数据文件

如何读取包含已知行数但每行中的条目数未知的数据文件例如如果我的数据文件包含类似的内容 1 3 4 5 6 7 8 9 1 3 5 6 4 5 6 7 8 3 5 6 7 8 4 5 7 8 即三行但每行中的数据未知有一次我需要来自一行
引导断点...需要一些说明“xs sm md lg”

所以在网上查找我看到一些最近的文章指出xs断点是480px及以下其他声明767及以下我的理解可能不正确 xs 适用于手机 480 像素及以下 col sm 适用于平板电脑 480 像素至 767 像素等然而当我应用 hid
PHP：获取 HTTP 协议版本（HTTP/1.1 与 HTTP/2）

到目前为止我的 php 应用程序到处都采用 HTTP 1 1 所以我定义了所有标题如下所示 header HTTP 1 1 500 Internal Server Error 但现在我的服务器也支持 HTTP 2 我想使用正确的 HTT
类方法和实例方法同名

我想做这样的事情 class X classmethod def id cls return cls name def id self return self class name 现在打电话id 对于类或其实例 gt gt gt X id
如何在 Tensorflow 中设置损失操作的名称？

在 Tensorflow 中我可以为操作和张量指定名称以便稍后检索它们例如在一个函数中我可以做 input layer tf placeholder tf float32 shape None 300 name input layer
“FOR”在cmd批处理文件中如何工作？

20 年来我一直在使用数十种语言进行编程但无论我如何努力我始终无法理解 Windows cmd shell 批处理文件中的 FOR 是如何工作的我读 http www ss64 com nt for html http www ss6
在Access表中插入自增主键

我们在 Access 数据库中有一个巨大的表有超过 500k 条记录并且没有 PK 是否可以将自动递增主键列插入到已经存在的 Access 表中是的它是并且可以通过编辑表并添加自动增量类型字段来非常简单地完成唯一的规则是每个表只能
D3 中的堆叠变换

我有一个已应用变换的 SVG 元素这可以是单个变换也可以是多个变换的组合我正在尝试对其应用额外的变换问题是这个变换可以重复应用并且需要与现有的变换状态堆叠因此在末尾附加额外的变换是不切实际的浏览 d3 API 我没有注意到任何
查找每第三个值并在 VIM 中插入 cr 或换行符

因此我有几个大型数据集需要使其更具可读性目前我必须进入并移动到每个第三个值并插入换行符我已经在 VIM 中尝试了几种方法来使其正常工作但似乎没有一个能返回我正在寻找的值这是我的一些数据 0 96260310749184663 4
如何改进多次 StringReplace 调用？

我从客户那里读取文件我需要处理读取的数据并删除一些不需要的字符我的函数有效但我正在尝试改进 FixData 函数以提高速度性能和可维护性是否可以将多个 StringReplace 调用替换为仅循环一次数据并替换为所需的任何内容的调

如何改进多次 StringReplace 调用？

如何改进多次 StringReplace 调用？ 的相关文章

随机推荐

热门标签

如何改进多次 StringReplace 调用？的相关文章