如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

2024-05-06

我的一个文件夹中有大约 5000 个 html 文件。我需要循环遍历它们，打开，使用 xpath 获取 10 个值，关闭并存储在（SQL Server）数据库中。

使用 .Net 读取 xpath 值的最简单方法是什么？

xpath 应该相当稳定。

请提供示例代码来读取一个值，例如 /html/head/title/text()

Thanks

我认为你应该调查一下HTML 敏捷包 https://html-agility-pack.net/。它是一个 HTML 解析器而不是 XML 解析器，并且更适合此任务。如果有任何内容与正在解析的 XML 不一致，则解析器将抛出异常。使用 HTML 解析器可以为您提供更多处理输入文件的余地。

显示如何使用所有 HREF（链接）属性执行某些操作的示例：

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }

我不靠近编译器，但你想要的例子是这样的：

string title = doc.DocumentNode.SelectSingleNode("//title").InnerText;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NET

xpath

htmlparsing

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？的相关文章

应用服务中的内存利用率是否可以提高

我有一个相当简单的 Web 应用程序在 Azure 的 B1 服务计划中的应用服务计划中运行该计划提供 1 个 CPU 和 1 75GB RAM CPU 使用率永远不会超过 5 左右内存使用率永远不会低于 52 我确实停止了计划中唯一运
真的不可能使用返回类型重载吗？

我用两种方法在MSIL中制作了一个小DLL float AddNumbers int int int AddNumbers int int 你们中有些人可能知道 MSIL 允许您创建具有相同参数的方法只要您具有不同类型的返回类型称为返回
如何从 ReadOnlySpan 复制到 Array？

我的班级有一个财产public byte Location get new byte 30 我希望能够从 a 中填充它ReadOnlySpan
MonoState、Singleton 或派生形式：CRUD 应用程序的最佳方法？

我有一个相当大的 CRUD WinForm 应用程序其中有许多对象人员注册计划案例注释等该应用程序由 30 多种表单组成 UI 逻辑上被分解会员注册计划案例说明等我正在尝试弄清楚如何创建我的人物对象搜索后搜索表格并将对
WPF Datagrid 循环/选择具有特定属性的单元格

全新的 WPF 对 WinForms 非常熟悉这可能会让过渡变得更加困难我正在尝试将旧 WinForms 项目中的一些功能移植到 WPF 中作为学习体验目标是在 DataGrid 中查找与 TextBox 中的字符串匹配的单元格值我
模拟 WCF 客户端代理的最佳方法

有没有办法使用 Rhino 模拟框架来模拟 WCF 客户端代理以便我可以访问 Channel 属性我正在尝试对 Proxy Close 方法进行单元测试但由于代理是使用抽象基类构造的ClientBase
删除 TableLayoutPanel 中的特定行

我有 TableLayoutPanel 我以编程方式添加行用户基本上选择一个属性然后与一些控件一起显示在表中我想我在这里有一个一般性的理解问题我会尽力解释它每行中的控件之一是删除按钮该按钮应该删除它所在的行我所做的是将事件
Lazy 实现和 .NET 泛型

我正在寻找进行延迟初始化的方法并发现Lazy
MySQL - 多个结果集

我正在使用 NET Connector 连接到 MySQL 在我的应用程序中很少有线程使用相同的连接因此如果 MySQLDataReader 尚未关闭并且某个线程正在尝试执行查询则会出现该错误已经有一个打开的 DataReader
我想在java中使用XQuery进行Xml处理

我想用XQuery用于从 java 中的 Xml 获取数据但我没有得到需要为此添加哪个 Jar 我在谷歌上搜索了很多但没有得到任何有用的例子例如我得到以下链接 https docs oracle com database 121 AD
获取按下的按钮的返回值

我有一个在特定事件中弹出的表单它从数组中提取按钮并将标签值设置为特定值因此如果您要按下或单击此按钮该函数应返回标签值我怎样才能做到这一点我如何知道点击了哪个按钮此时代码返回 DialogResult 但我想从函数返回 Tag
有没有办法将消息从 C#.NET 程序集（ActiveX）发送到 VB6 应用程序？

本问答参考并可用于以下用途目的通过ActiveX dll从IE浏览器发送消息到vb6应用程序从 ActiveX dll 向 vb6 应用程序发送消息从 C net dll 发送消息到 vb6 应用程序我读过了本文 http www
从架构上来说，我应该如何用更易于管理的内容替换非常大的 switch 语句？

EDIT 1 忘记添加嵌套属性曲线球 UPDATE 我选择了 mtazva 的答案因为这是我的具体案例的首选解决方案回想起来我用一个非常具体的例子提出了一个一般性问题我相信这最终让每个人或者也许只是我对问题到底是什么感到困惑我
WUApiLib IUpdateInstaller2 产生错误；某些操作系统更新安装其他操作系统会抛出 HResult -2145124318

更新是从本地服务器下载的而不是从 WUS 或 Microsoft 存储库下载的本地服务器基于 Linux 该主机包含每次更新的内容我没有使用UpdateDownloader要从Microsoft服务器下载我手动下载更新内容然后使用
如何防止在 ActiveX 方法调用期间重新进入 WPF 事件处理程序？

我们从 WPF 和 STA 应用程序中调用 ActiveX 组件上的方法此调用是通过以下方式后期绑定执行的 res ocx GetType InvokeMember methodName flags null ocx args 其中 oc
LINQ to Entities 区分大小写的比较

这不是 LINQ to Entities 中区分大小写的比较 Thingies First t gt t Name ThingamaBob 如何使用 LINQ to Entities 实现区分大小写的比较那是因为你正在使用LINQ 实体最
WPF DataGrid 验证/绑定模式错误

我创建了一个非常简单的新项目仅测试 Microsoft WPF DataGrid 行为不涉及其他我只使用标准的 DataGrid
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
在mysql连接字符串中添加应用程序名称/程序名称[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在寻找一种解决方案在连接字符串中添加应用程序名称或程序名称以便它在 MySQL Workbench 中的客户端连接下可见 SQL
如何在richtextbox中使用多颜色[重复]

这个问题在这里已经有答案了我使用 C windows 窗体并且有 richtextbox 我想将一些文本设置为红色一些设置为绿色一些设置为黑色怎么办呢附图片 System Windows Forms RichTextBox有一个

随机推荐

如何以跨系统的方式将进程仅绑定到物理核心？

我在用着每次将线程数加倍的项目 https github com ConsenSys mythril pull 1372 files 您会增加 40 到 60 的开销由于超线程将性能最多提高了 30 这意味着程序在超线程系统上的运行速度比
在实体框架中定义两个外键作为主键

在实体框架中我想使用两个外键作为另一种实体类型的主键 public class CustomerExtensionValue Values for extended attributes of a customer Key Column
如何在 Imagick 中读取 SVG 字符串？

我有一个包含 svg 元素标记的字符串
了解用户是否更改了 DataGrid 中的数据的最佳方法是什么？

我想知道每次用户修改 WPF DataGrid 中的数据时我可以使用一个事件来做到这一点吗或者我可以用来覆盖全套数据更改添加行删除行修改行等的最小事件集是什么我知道这可能超出了你的要求但是一旦你这样做了就很难回头了无论您
根据 C3 图表中选择的区域显示过滤后的数据 - Angular

我的代码是https codesandbox io s late forest cuwf7 https codesandbox io s late forest cuwf7 我有 2 个文件 app component html 和 app
标准 C 的通用库？

是否有任何广为人知的标准 C 通用库我正在考虑类似于 C 的 Boost 之类的东西我找到了 C POSIX 库还有其他库吗 GLib http en wikipedia org wiki GLib GObject http en w
看起来像 iOS7 向左导航 V 形的 Unicode 字符

最接近 iOS7 向后指向导航栏 V 形的大小与大写字母一样大或大于大写字母和形状的 Unicode 字符是什么我正在寻找一种使用 unicode 字符来模拟通常没有返回导航的视图的向后导航 V 形的方法常规的对于锐角比 U
黑白 PNG 转 SVG

我有一个河流土地掩码来区分土地与河流湖泊该文件的大小为 W 43 200x H 21 600 由于 RAM 立即填满因此无法打开该文件我已将文件分成 3600 3600 块它们可以正常打开然而我试图在谷歌地图中绘制陆地上的文
关于 GUI 计时器显示后台线程已用时间的建议？

Issue 我有一个 PyQt GUI 用户按下按钮即可启动后台线程 workerThread 它是从QThread 我想要一个计时器显示以QLabel 显示自此以来已经过去了多少时间workerThread开始我希望这个计时器在wor
s60 的 python 希伯来语字符串

我在 S60 上使用 python 我想使用希伯来语字符串在 GUI 上表示它们并以短信形式发送它们看来 PythonScriptShell 不接受这样的表达式例如 u 我能做些什么谢谢事态发展我添加了这一行 coding ut
如何在 Google Chrome 上启用 WebVR？

我正在尝试创建一个 WebVR 场景对于此任务我想在 Google Chrome 上启用 WebVR 我的操作系统是 Windows 8 我使用打开标志chrome flags WebVR 不存在我怎样才能启用它 Official c
HttpClient 请求拦截器，例如在从服务器获取响应时

我想在请求尝试命中时打开加载程序弹出窗口并在收到响应后将其关闭有什么方法可以使用 httpclient 从一个地方执行它像这样的事情 Injectable export class I1 implements HttpIntercep
如果 showPopup 仅适用于 API 11，如何将菜单链接到带有 ABS 的视图？

注意 PopupMenu 在 API 级别 11 及更高版本中可用 http developer android com guide topics ui menus html PopupMenu http developer android
使用 AngularJS 获取 Youtube 视频标题

我在使用 AngularJS 获取 YouTube 视频标题时遇到问题这是我到目前为止的代码服务 js var myServices angular module myServices ngResource myServices fac
如何启动 EC2 实例并在每个实例上上传/运行启动脚本？

我想自动启动一组 Linux EC2 实例基本上我想编写一个脚本程序实例化我的给定 AMI 的 N 次出现对于每个启动的实例它会上传自定义脚本并让脚本运行到实例中使用 VMWare 我通常会使用vmrun或 Vix SDK 亚
pygame.sprite.Group() 做什么

我正在关注有关 pygame 的视频我看到了这段代码 crosshair pygame sprite Group 有人能给我解释一下吗阅读以下文档pygame sprite Group https www pygame org docs
Excel VBA application.visible 立即设置回 True

我已经设置了一个新的空的无模式的用户表单用最少的代码来解决我的问题当工作簿打开时执行以下代码来隐藏 Excel 并显示用户窗体这是工作簿的唯一代码 Private Sub Workbook Open UserForm1 Show
parse_str 在元素前面加上 & 符号？

我一直在玩 cURL 并尝试将数组作为 POST 变量发送我决定使用 http build query 按预期传递字符串 curl setopt this gt ch CURLOPT POSTFIELDS http build query
如何计算PHP中内置函数的总数？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 如何计算
如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

我的一个文件夹中有大约 5000 个 html 文件我需要循环遍历它们打开使用 xpath 获取 10 个值关闭并存储在 SQL Server 数据库中使用 Net 读取 xpath 值的最简单方法是什么 xpath 应该相当稳定

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？ 的相关文章

随机推荐

热门标签

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？的相关文章