我的一个文件夹中有大约 5000 个 html 文件。我需要循环遍历它们,打开,使用 xpath 获取 10 个值,关闭并存储在(SQL Server)数据库中。
使用 .Net 读取 xpath 值的最简单方法是什么?
xpath 应该相当稳定。
请提供示例代码来读取一个值,例如 /html/head/title/text()
Thanks
我认为你应该调查一下HTML 敏捷包 https://html-agility-pack.net/。它是一个 HTML 解析器而不是 XML 解析器,并且更适合此任务。如果有任何内容与正在解析的 XML 不一致,则解析器将抛出异常。使用 HTML 解析器可以为您提供更多处理输入文件的余地。
显示如何使用所有 HREF(链接)属性执行某些操作的示例:
HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
HtmlAttribute att = link["href"];
att.Value = FixLink(att);
}
我不靠近编译器,但你想要的例子是这样的:
string title = doc.DocumentNode.SelectSingleNode("//title").InnerText;
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)