正则表达式 - 删除跨越多个换行符的 HTML 注释

2024-02-29

我正在使用这个脚本：

http://www.codeproject.com/Articles/11902/Convert-HTML-to-Plain-Text http://www.codeproject.com/Articles/11902/Convert-HTML-to-Plain-Text

将某些 Outlook HTML 转换为纯文本。

它几乎可以工作，唯一留下的是 Outlook 放置在 html 注释标签中的 CSS此外<style>标签（已删除）

这是原文：

<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
    {font-family:Calibri;
    panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
    {margin:0cm;
    margin-bottom:.0001pt;
    font-size:11.0pt;
    font-family:"Calibri","sans-serif";
    mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
    {mso-style-priority:99;
    color:blue;
    text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
    {mso-style-priority:99;
    color:purple;
    text-decoration:underline;}
span.EmailStyle17
    {mso-style-type:personal-compose;
    font-family:"Calibri","sans-serif";
    color:windowtext;}
.MsoChpDefault
    {mso-style-type:export-only;
    font-family:"Calibri","sans-serif";
    mso-fareast-language:EN-US;}
@page WordSection1
    {size:612.0pt 792.0pt;
    margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
    {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">tesst<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:dimgray;mso-fareast-language:EN-GB">JOE BLOGS</span></b><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:dimgray;mso-fareast-language:EN-GB">
</div>
</body>
</html>

这是生成的文本：（注意 HTML 注释尚未删除）

<!--
/* Font Definitions */
@font-face
    {font-family:Calibri;
    panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
    {margin:0cm;
    margin-bottom:.0001pt;
    font-size:11.0pt;
    font-family:"Calibri","sans-serif";
    mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
    {mso-style-priority:99;
    color:blue;
    text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
    {mso-style-priority:99;
    color:purple;
    text-decoration:underline;}
span.EmailStyle17
    {mso-style-type:personal-compose;
    font-family:"Calibri","sans-serif";
    color:windowtext;}
.MsoChpDefault
    {mso-style-type:export-only;
    font-family:"Calibri","sans-serif";
    mso-fareast-language:EN-US;}
@page WordSection1
    {size:612.0pt 792.0pt;
    margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
    {page:WordSection1;}
-->

tesst
&nbsp;
JOE BLOGS

我尝试使用附加替换来调整 StripHTML() 函数 - 但这些也不起作用。

result = System.Text.RegularExpressions.Regex.Replace(result, "(<!--).*?(-->)", String.Empty, System.Text.RegularExpressions.RegexOptions.IgnoreCase)
result = System.Text.RegularExpressions.Regex.Replace(result, "<!--*-->", String.Empty, System.Text.RegularExpressions.RegexOptions.IgnoreCase)

请帮忙 - 这是一个 2 分钟的工作，我从午餐以来就一直坚持这样做facedesk

Cheers

Edit 1: 还尝试了以下方法 - 仍然没有喜悦

result = System.Text.RegularExpressions.Regex.Replace(result, "<!--.*-->", String.Empty, System.Text.RegularExpressions.RegexOptions.IgnoreCase)
result = System.Text.RegularExpressions.Regex.Replace(result, "<!--.*?-->", String.Empty, System.Text.RegularExpressions.RegexOptions.IgnoreCase)

Edit 2:我注意到这个问题得到了很多人的关注，任何读到这篇文章的人都应该三思而行，考虑采用 regExp 方法，相反，我建议使用 Lynx（基于开源文本的浏览器）将 HTML 转换为纯文本，我问了一个类似的问题here https://stackoverflow.com/questions/13839225/handle-large-amounts-of-output-from-p-waitforexit-with-redirectstandardoutput我根据答案在编辑中提供了示例代码，这些代码应该帮助您开始在 .net 应用程序中使用 lynx.exe。这是我们最终使用的方法，此后没有出现任何问题。

您的第二个正则表达式有以下三个原因：

你需要使用.匹配任何字符。
The *是贪婪的。你要*?懒惰地匹配。
你需要RegexOptions.Singleline.

尝试这个：

result = Regex.Replace(result, "<!--.*?-->", "", RegexOptions.Singleline);

我强烈建议您不要使用正则表达式来解析 HTML。如果你使用HTML 敏捷包 http://html-agility-pack.net/?z=codeplex.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式 - 删除跨越多个换行符的 HTML 注释的相关文章

当其源是 https uri 时如何使 wpf MediaElement 播放

在 wpf 独立应用程序 exe 中我在主窗口中包含了 MediaElement
EventHandler 应该始终用于事件吗？

我一直在愉快地使用自定义委托类型和通用编写事件Action委托类型没有真正考虑我在做什么我有一些很好的扩展助手Action and EventHandler这使我倾向于使用那些预定义的委托类型而不是我自己的委托类型但除此之外除了惯例
C# 和月历，选择多个日期

我正在制作一个程序可以帮助人们用 C 为某个部门预订订单他们需要能够选择不同月份的多个日期我更愿意拥有它这样他们就可以单击一个日期然后按住 Shift 键单击另一个日期以选择这两个日期之间的所有日期并控制单击以进行单选取消
libtool 在 Ubuntu 13.04 上构建 thrift 0.9.1 时出错

在 Ubuntu 13 04 上构建 thrift 0 9 1 支持 C C java C perl python 时出现此错误 configure 不带任何选项运行 make 不带任何选项运行 Making all in test mak
为什么在 C++ 中声明枚举时使用 typedef？

我已经很多年没有写过任何 C 了现在我正试图重新开始然后我遇到了这个并考虑放弃 typedef enum TokenType blah1 0x00000000 blah2 0X01000000 blah3 0X02000000 Toke
C++中的类要具备什么条件才能成为容器？

我是 C 编程新手偶然发现了这个术语containers举例如下vector deque map etc 一个企业的最低要求应该是什么class应该满足被称为container in C 我将从范围这个概念开始 Range 只有两个方
为什么 C# 中同一类型的隐式和显式运算符不能共存？ [复制]

这个问题在这里已经有答案了为什么同一类中两个相同类型的运算符显式和隐式不能共存假设我有以下内容 public class Fahrenheit public float Degrees get set public Fahrenhe
关闭整数的最右边设置位

我只需要关闭最右边的设置位即可我的方法是找到最右边位的位置然后离开该位我编写这段代码是为了这样做 int POS int n int p 0 while n if n 2 0 p else break n n 2 return p i
名称查找、实例化点 (POI) 和基本类型

以下代码针对 X 进行编译但不适用于 double struct X void foo double void foo X namespace NN struct A void foo A foo double error foo not
从点云检测平面集

我有一组点云我想测试3D房间中是否有角落所以我想讨论一下我的方法以及在速度方面是否有更好的方法因为我想在手机上测试它我将尝试使用霍夫变换来检测线然后我将尝试查看是否有三条线相交并且它们也形成了两个相交的平面如果点云数据来自深
在 C 语言中替换宏内的宏

我正在尝试使代码部分可重用我下面的评论片段没有达到我想要的效果 define NAME ABC define LOG SIZE NAME LEN 我想LOG SIZE决心ABC LEN 我尝试过使用但没能让它发挥作用 LOG SIZE在
如何在 EF Core 2.1 中定义外键关系

我的 DAL 使用 EF Core 2 1 这就是我的模型的样子一名用户只能拥有一种角色 Role entity kind of master public class Role public int RoleId get set pub
如何对STL向量进行排序？

我想排序一个vector vector
WinForms - 加载表单时如何使用 PaintEventArgs 运行函数？

我试图理解图形在 Graphics FromImage 文档中它有这样的示例 private void FromImageImage PaintEventArgs e Create image Image imageFile Image
当 Verb="runas" 时设置 ProcessStartInfo.EnvironmentVariables

我正在开发一个 C 应用程序我需要创建变量并将其传递给新进程我正在使用ProcessStartInfo EnvironmentVariables 新进程必须提升运行因此我使用 Verb runas var startInfo new
值和类型的简洁双向静态 1:1 映射

我将从我想象如何使用我想要创建的代码开始它不必完全像这样但它是我在标题中所说的简洁的一个很好的例子就我而言它是将类型映射到相关的枚举值 struct bar foo
使用 boost 异步发送和接收自定义数据包？

我正在尝试使用 boost 异步发送和接收自定义数据包根据我当前的实现我有一些问题 tcpclient cpp include tcpclient h include
初始化列表在 VC10 中不起作用

我在 VC 2010 中编写了这个程序 class class1 public class1 initializer list
Unity，c++ 本机插件字节数组不匹配

在我的 C 本机插件中我有一个调用 vector
如何在c中断言两个类型相等？

在 C 中如何断言两种类型相等在 C 中我会使用 std is same 但搜索 StackOverflow 和其他地方似乎只能给出 C 和 C 的结果在C中没有办法做到这一点吗请注意这不是询问变量是否具有某种类型而是询问两个类

随机推荐

PyQt5和OpenCV有类似的库；如何避免两者之间的冲突？

我在同一个 conda 虚拟环境中拥有 PyQt5 和 OpenCV opencv python 3 4 1 15 PyQt5 5 10 1 每当我运行 PyQt5 应用程序时我都会收到许多如下警告 objc 7992 Class QCo
配置 Spring Security 以针对 REST URL 返回 403 并针对其他 URL 重定向到登录

我的 Web 应用程序有一堆普通资源 html 页面等以及一些由前面提到的 html 页面从 JavaScript 调用的 REST 资源如果会话超时用户将被重定向到登录表单这对于普通资源来说非常有用但对于 REST 资源
Tie::IxHash 在 Perl 中是如何实现的？

我最近在 Perl 中遇到了一种情况使用保留顺序的哈希将使我的代码更具可读性和更易于使用经过一番搜索后我发现了 Tie IxHash CPAN 模块它正是我想要的在我不顾一切并开始使用它之前我想更好地了解它的工作原理以及我可以期
从 Eclipse 中删除 SVN 用户名和密码在 Windows 7 中不起作用

我在 Windows 7 中使用 Eclipse Helios 32Bit 带有 Subclipse 1 6 x 我想重置我的 SVN 用户名和密码在网上我找到了以下步骤关闭 Eclipse 或 RAD WSAD 导航到以下目录将
Bootstrap 平衡项目符号列

我有一个无序列表我希望它在页面上保持平衡因此我应用了 Bootstrap 列平衡技术如本示例所示当然真正的项目有更长的文本 div class row ul li class col xs 12 col md 6 item 1
AWS ECR PULL 没有基本身份验证凭据

我正在使用 Terraform 部署 Azure K8s 集群并且图像托管在 Amazon ECR 中从 ECR 提取映像时部署失败并出现以下错误 Failed to pull image tooot eu west 1 amazon
在db2中使用动态表名

目前在我的项目开发中需要根据某些条件生成记录计数其中表名存储在单独的表中例如 xx表存储表名列名是tableInfo 我以这样的方式编写了存储过程 DECLARE FGCURSOR CURSOR FOR SELECT tableI
如何正确使用Jackson Mixin注解实例化第三方类？

我有一个第三方库类来自 Apache Axis 我想通过 Jackson JSON 序列化它 public class NonNegativeInteger extends BigInteger public NonNegativeInt
混合 html 和 json 模板时如何在 thymeleaf 中正确设置内容类型

我正在使用 spring boot 和 thymeleaf 开发单页应用程序我有两种模板一个将 SPA 脚手架页面生成为 html 多个生成 json 响应 json 响应正在以内容类型发送回text html当我希望他们成为appli
用户如何注册 Oauth？

我一直在研究这个Oauth概念但我仍然对这个概念很困惑我的主要问题之一是如何注册谷歌帐户或推特帐户例如假设为了注册我的网站您必须提供用户名密码电子邮件组名如果您通过我的网站注册那么您可以非常轻松地提供这些字段然而假设
禁用浏览器链接 - 哪个工具栏

我想禁用 Visual Studio 浏览器链接我发现这个问题如何在 VS NET 2013 中禁用 vwd js artery https stackoverflow com questions 17390158 how can i
Silverlight/WPF 图表工具包。我可以更改 CategoryAxis 上刻度线的频率吗？

LinearAxis 上有 Interval 属性但 CategoryAxis 上没有我需要控制 X 轴上刻度线的频率原生逻辑做了太多标记即使我将图表拉伸到 3 个宽显示器我也无法阅读几个建议 1 CategoryAxis 有一
使用dagger 2的Android生命周期库ViewModel

我有一个 ViewModel 类就像定义在连接 ViewModel 和存储库的部分架构指南 https developer android com topic libraries architecture guide html 当我运行我
初始化核心数据 SwiftUI

我正在尝试初始化数据以便当用户第一次安装应用程序时它会有一些数据 init 不起作用但为什么呢对于核心数据上的 CRUD 操作我正在使用xcdatamodeld包含名为的实体的文件ProgrammingLanguage它有两个字符串
创建Python虚拟环境Windows 10时出错

我正在尝试使用命令为 Python 3 7 2 win 10 项目创建 python 虚拟环境 C Users STAR WARE Documents Python Tricks book gt python m venv venv 我收到
Secure.getString(mContext.getContentResolver(), "bluetooth_address") 在 Android O 中返回 null

当我尝试通过这种方式获取 Android O 设备上的蓝牙地址时 private String getBlutoothAddress Context mContext Check version API Android BluetoothA
为什么 window.scrollTo() 需要 setTimeout() 才能工作？

这是一个 HTML 页面在左上角显示三个方形 div window addEventListener load function console log load event has fired window scrollTo 500 0
闪亮的模块：在创建模块 UI 时已经存储参数（附加参数），而不是将其传递给模块的服务器函数？

我创建了一个模块sliderCheckbox它捆绑在一起sliderInput and a checkBoxInput禁用 sliderInput 基本上可以声明我不知道这对于类似调查的输入是必要的当滑块被禁用时我希望它返回一个默认
SSKeychain：帐户未存储在 iCloud 中？

我正在使用 sskeychain https github com soffes sskeychain https github com soffes sskeychain 将我的帐户和密码存储在 IOS 钥匙串中我认为如果我存储帐户
正则表达式 - 删除跨越多个换行符的 HTML 注释

我正在使用这个脚本 http www codeproject com Articles 11902 Convert HTML to Plain Text http www codeproject com Articles 11902 Con

正则表达式 - 删除跨越多个换行符的 HTML 注释

正则表达式 - 删除跨越多个换行符的 HTML 注释 的相关文章

随机推荐

热门标签

正则表达式 - 删除跨越多个换行符的 HTML 注释的相关文章