使用 HTML Agility Pack 删除重复元素链

2024-01-21

我正在尝试删除任何重复或多次出现的任何
我的 html 文档中的标签。这是我到目前为止所想出的（非常愚蠢的代码）：

HtmlNodeCollection elements = nodeCollection.ElementAt(0)
                             .SelectNodes("//br");

if (elements != null)
{
    foreach (HtmlNode element in elements)
    {
        if (element.Name == "br")
        {
             bool iterate = true;
             while(iterate == true)
             {
                 iterate = removeChainElements(element);
             }
         }
     }
}

private bool removeChainElements(HtmlNode element)
{
    if (element.NextSibling != null && element.NextSibling.Name == "br")
    {
        element.NextSibling.Remove();
    }
    if (element.NextSibling != null && element.NextSibling.Name == "br")
         return true;
    else
         return false;
    }
}

该代码确实找到了br标签，但它根本不删除任何元素。

我认为你的解决方案太复杂了，尽管据我了解，这个想法似乎是正确的。

假设，找到所有的可能会更容易<br />首先，删除那些其前一个兄弟节点<br /> node.

让我们从下一个例子开始：

var html = @"<div>the first line<br /><br />the next one<br /></div>";
var doc = new HtmlDocument();
doc.LoadHtml(html);

现在找到<br />节点并删除重复元素链：

var nodes = doc.DocumentNode.SelectNodes("//br").ToArray();
foreach (var node in nodes)
    if (node.PreviousSibling != null && node.PreviousSibling.Name == "br")
        node.Remove();

并得到它的结果：

var output = doc.DocumentNode.OuterHtml;

it is:

<div>the first line<br>the next one<br></div>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

htmlagilitypack

使用 HTML Agility Pack 删除重复元素链的相关文章

为什么我的 C#/pinvoke DeviceIoControl 调用返回 0 字节读取的垃圾数据？

我有一个运行良好的非托管 C Windows 控制台应用程序我想要它在 C 中我已经为必要的 Kernel32 dll 符号完成了 DllImport 语句 StructLayout LayoutKind Sequential inte
如何使用 VS2022 中的新控制台应用程序模板访问命令行参数

我想知道如何访问命令行参数因为这是在Program cs通过 Visual Studio 2022 中控制台应用程序的新模板创建文件 See https aka ms new console template for more infor
在哪里使用 EF6 订阅 ObjectMaterialized？

我正在尝试将我的上下文订阅到以下 OnjectMaterialized 事件this https stackoverflow com a 3756842 2835713 像这样 IObjectContextAdapter this Obje
在 C++ 中，std::string::push_back() 的摊余复杂度是 O(1) 吗？

我知道标准指定它适用于向量但是字符串呢是的它是摊销常数时间请参见第 716 页的表 101本文件的 http www open std org jtc1 sc22 wg21 docs papers 2012 n3485 pdf 表
Windows 10 UWP 中的视觉状态管理器未在页面加载时应用初始状态

我有一个带有相关面板的页面可以根据宽度重新组织但是除非宽度 gt 720px 否则它似乎不会在加载时应用任何状态如果我在加载页面后调整页面大小则两种状态都有效解决方法是检查加载页面上的窗口大小并手动选择状态但我相信这应该自动处
MVC 中的 Blazor：组件被渲染，但 @onclick 不起作用。连接问题

我正在尝试在 net core 3 MVC 项目中使用 Blazor 我使用了一些教程来做到这一点例如https fizzylogic nl 2019 08 18 integrating blazor in an existing asp
如何在Qt中更快地读取数据？

Qt读取数据库比C 慢吗我想我错过了一些东西为了比较阅读速度我在 Qt 中编写了以下内容 QElapsedTimer t t start int count 0 QString cs Driver SQL Server Server
有没有办法让我的程序用更少的代码运行？

我为学校作业编写了以下代码它编译并打印所有正确的消息但出于我自己的好奇心我想知道我的代码是否可以缩短并且仍然有效我尝试了 signal 而不是 sigaction 但我听说 sigaction 比 signal 更受青睐此外此任
ASP.NET 数据集 getdataBy 无法启用约束。一行或多行包含违反非空、唯一或外键约束的值

你好我有一个非常简单的网络表单我在此表单上有一个按钮和一个网格视图以及一个包含链接表 bill docket docket bill 等的数据集在按钮上单击我使用以下代码 protected void button click ob
通过 EUSART PIC18F45K80 打印消息

我正在尝试向 Docklight 发送串行消息但始终收到空值我正在使用带有 XC8 MPLAB X 的 PIC18F45K80 我的代码中的所有内容似乎都是正确的但我想我错了我该如何修复它 include
C++ Linux GCC 应用程序中的 GUID

我有很多服务器运行这个 Linux 应用程序我希望他们能够生成一个碰撞概率较低的 GUID 我确信我可以从 dev urandom 中提取 128 个字节这可能没问题但是有没有一种简单易用的方法来生成与 Win32 更等效的 GUID
Math.Sin、Math.Cos 和 Math.Tan 精度以及正确显示它们的方法

我正在用 C 编写一个计算器 textBoxResult是一个文本框我在其中显示数字 recount是以度为单位获取角度并以弧度为单位返回的函数我的角度是从texBoxInput public double recount int nu
Docker 不遵循构建目录中的符号链接

我正在对一个应用程序进行 Docker 化其中涉及通过 Clang 将二进制文件与其他 C 文件链接我们维护二进制文件的符号链接版本因为它们在整个代码库中使用我的 Docker 构建目录包含整个代码库包括源文件以及这些源文件的符号
DataContractJsonSerializer 包含元素类型子类型的通用列表

我要使用DataContractJsonSerializer用于 JSON 序列化反序列化我在 JSON 数组中有两种对象类型并希望将它们都反序列化为相应的对象类型具有以下类定义 DataContract public class
C# 或 Windows 相当于 OS X 的 Core Data？

我迟到了现在才开始在 OS X Cocoa 中使用 Core Data 它令人难以置信并且确实改变了我看待事物的方式 C 或现代 Windows 框架中是否有等效的技术即拥有可免费保存数据管理删除搜索的托管数据类型还想知道Li
将华氏温度转换为摄氏度的 C 程序始终打印零

我需要一些关于用 C 语言将华氏温度转换为摄氏度的程序的帮助我的代码如下所示 include
来自资源中 ImageSource 的 System.Drawing.Image

我的问题与这个非常相似 wpf图像资源以及运行时在wpf控件中更改图像 https stackoverflow com questions 940592 wpf image resources and changing image in w
C# 中的快速字符串解析

在 C 中解析字符串最快的方法是什么目前我只是使用字符串索引 string index 并且代码运行合理但我忍不住认为索引访问器所做的连续范围检查必须添加一些东西所以我想知道我应该考虑哪些技术来增强它这些是我最初的想法问题使用
ASP.NET API：尚未为此 DbContext 配置数据库提供程序

我正在尝试从我的 Net Core API 项目连接到 MySql 数据库这是我的上下文类 public class MyContext DbContext public MyContext public MyContext DbCont
File.Move 的原子性

我想将目录中的文件重命名为原子事务该文件不会更改目录该路径作为 NTFS 文件系统的 UNC 路径提供可能位于服务器 03 或 08 上 File Move 对于这些目的来说是原子的吗例如它要么成功完成要么失败以使原始文件仍然

随机推荐

TreeMap.get() 即使键存在也返回 Null

我试图从 TreeMap 获取数据但即使键存在它也会返回 null HashCode 和 equals 仅基于单词可比性基于频率 public static void main TreeMap
Android 的 XML RPC - 无法创建 XML 解析：org.xml.sax.SaxNotRecognizedException

我的问题正是this https stackoverflow com questions 6089432 xml rpc problem in java unable to create the xml parse org xml sax
Azure 是否限制传出连接

我正在 Azure 中运行一个 VM 其中有一项服务可以发出大量传出 http 客户端调用一段时间大约 10 分钟后当服务发出大约 5000 10000 次调用时它突然开始收到连接被拒绝作为对请求的响应当在本地运行相同的服务
Django 1.8 操作错误：没有这样的列：

我正在使用 django 1 8 但在添加到 models py 时遇到问题目前是 from django db import models Create your models here class Company models Mod
WPF - 为什么列表框项目不填充统一网格

我有一个列表框其中 ItemsPanelTemplate 设置为 UniformGrid 行数 6 列数 7 我希望列表框项目填充其空间我正在使用字典中定义的数据模板我的模板的外部控件是一个带有 Horizo ntalAlignmen
更新支持库23.2.0构建错误

我已经将支持库更新到23 2 0 自更新以来我在构建时收到此错误 app build intermediates data binding layout out debug values v11 values v11 xml 错误 67
使用 Flask-RESTPlus 时如何接受 String 类型字段 None

我刚刚开始使用 Flask restplus 进行开发我不是母语人士但我会尽力尽可能清楚地描述我的问题我知道有一个fields模块输入flask https flask restplus readthedocs io en 0 8 3
使用 jpa/hibernate 进行实体更新时出现问题

我有一个名为 Pagina 的实体类我想根据对实体所做的更改来更新数据库中的条目这不起作用我没有收到任何错误但数据库没有更改 Entity Table name PAGINA NamedQueries NamedQuery name
使用SmtpClient，并得到“目标机器主动拒绝”

我正在尝试使用 System Net Mail 作为应用程序发送电子邮件但出现此异常 System Net Mail SmtpException 发送邮件失败 gt System Net WebException 无法连接到远程服务器 g
为什么 Json.NET 无法序列化 X509Certificate2？

每当我尝试使用 Json NET 序列化 X509Certificate2 实例不使用其 ISerialized 实现但选择忽略它时 Json NET 都会引发异常异常消息是 System Security Cryptography
ABAddressBookGetPersonCount 在 iOS 中返回 -1

我遇到了 ABAddressBookGetPersonCount 返回 1 的情况测试人员向我保证地址簿中确实存在联系人所有手机均运行 iOS 6 0 1 这是代码 NSMutableDictionary myAddressBook N
使用 javascript 访问具有多个值的选择选项标记中的值

这是我的代码 Mouse
Gitea - SSH 身份验证正常，但无法推送到远程

我的 Gitea 版本是 1 2 3 它安装在 gentoo 专用服务器上我使用我的用户不是 root 用户在另一台专用服务器上创建了 SSH 密钥在 Gitea GUI 上我创建了一个组织和该组织的存储库我的 gitea 用户
Java exec 无法运行程序，错误 = 2

我正在尝试使用 Java exec 从 Java 应用程序运行 R exe R 位于环境变量中如果我使用 R 命令从 cmd 执行它它就可以工作如果我在 Java 中执行示例指令并尝试打开记事本它会起作用 Runtime rt Ru
OpenCV：使用 Canny 和 Shi-Tomasi 检测扑克牌的圆角

I want to do some planar rectification to convert from left to right 我有进行校正的代码但我需要 4 个角坐标我使用以下代码来查找它们 import cv2 image
Angular js 中的内容可编辑

我有一张表格如下所示 A B C D abc pqr XYZ RSY 现在在这张表中我使用的是content editable of HTML5为了column B 这样我就可以编辑column B 现在当我编辑这个时有什么方法
检查 OpenCart 2.0 中的模块位置

我使用以下代码来检查模块位置所以它在 OpenCart 1 5 6 中运行良好当模块在内容左右面板中启用时我想在 OpenCart 中隐藏 javascript 代码 https stackoverflow com question
创建视图时出现 Oracle 错误 - ORA-01720

我在 Oracle 11 2 0 4 0 环境中遇到了一个让我困惑的问题我有一个正在运行的已编译视图我可以从中选择数据但我无法在不出现 ORA 01720 错误的情况下更改它关于我的设置的一些信息简单来说我有 2 个模式 A 和
实验开发服务器组件时使用哪种 XMPP 服务器

我想尝试使用开发 XMPP 服务器组件XEP 0114 Jabber 组件协议 http xmpp org extensions xep 0114 html 您推荐哪台服务器为什么我说的是易于开发社区支持文档示例等这是一个很难回
使用 HTML Agility Pack 删除重复元素链

我正在尝试删除任何重复或多次出现的任何我的 html 文档中的标签这是我到目前为止所想出的非常愚蠢的代码 HtmlNodeCollection elements nodeCollection ElementAt 0 SelectNode

使用 HTML Agility Pack 删除重复元素链

使用 HTML Agility Pack 删除重复元素链 的相关文章

随机推荐

热门标签

使用 HTML Agility Pack 删除重复元素链的相关文章