如何将 HTML 读取为 XML?

2023-12-02

我想从从互联网下载的 html 页面中提取几个链接,我认为使用 linq to XML 对于我的情况来说是一个很好的解决方案。
我的问题是我无法从 HTML 创建 XmlDocument,使用 Load(string url) 不起作用,所以我使用以下方法将 html 下载到字符串:

public static string readHTML(string url)
    {
        HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
        HttpWebResponse res = (HttpWebResponse)req.GetResponse();
        StreamReader sr = new StreamReader(res.GetResponseStream());

        string html = sr.ReadToEnd();
        sr.Close();
        return html;
    }

当我尝试使用 LoadXml(string xml) 加载该字符串时,出现异常

'--' is an unexpected token. The expected token is '>'

我应该采取什么方式将html文件读取为可解析的XML


HTML 与 XML 根本不同(除非 HTML 实际上恰好符合 XML 模式中的 XHTML 或 HTML5)。最好的方法是使用HTML解析器读取 HTML。然后,您可以将其转换为 Linq to XML – 或直接处理它。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 HTML 读取为 XML? 的相关文章

  • 获取列表框中视图中的项目

    我有一个 ListBox 其属性 VirtualizingStackPanel VirtualizationMode 设置为 回收 我正在绑定一个自定义集合 实现IList and IList
  • 如何在 Linux 上重新实现(或包装)系统调用函数?

    假设我想完全接管 open 系统调用 也许要包装实际的系统调用并执行一些日志记录 一种方法是使用 LD PRELOAD http scaryreasoner wordpress com 2007 11 17 using ld preload
  • 加载 QPixmap 数据的更好方法

    更好的方法来做到这一点 没有QImage QImage image width height QImage Format RGB888 memcpy image bits m frameRGB gt data 0 height width
  • 用于 C++ 中图像分析的 OpenCV 二进制图像掩模

    我正在尝试分析一些图像 这些图像的外部周围有很多噪声 但内部有一个清晰的圆形中心 中心是我感兴趣的部分 但外部噪声正在影响我对图像的二进制阈值处理 为了忽略噪音 我尝试设置一个已知中心位置和半径的圆形蒙版 从而使该圆之外的所有像素都更改为黑
  • 注入包含接口的所有已注册实现的 Enumerable

    给出以下接口 public interface IMyProcessor void Process 我希望能够注册多个实现 并让我的 DI 容器将它们的可枚举注入到这样的类中 public class MyProcessorLibrary
  • 不透明度如何影响元素顺序?

    我发现 CSS 有一个非常奇怪的行为opacity与浮动元素相结合 考虑以下 HTML div div Right button div div div Overlay div 最后div将覆盖前两个浮动的 删除不透明度会将最新的 div
  • 更改私有模块片段是否会导致模块重新编译?

    On 此页面有关 C 20 模块功能 https www modernescpp com index php c 20 modules private module fragment and header units 我发现了这样的说法 借
  • 垂直滚动,与 div/元素/锚点对齐/对齐

    我发现了一些可爱的网站 http www mini jp event campaign big point http www mini jp event campaign big point http www twenty8twelve c
  • MINIX内部碎片2

    我正在用 C 语言编写一些软件 它递归地列出给定目录中的所有文件 现在我需要计算出内部碎片 我花了很长时间研究这个问题 发现 ext2 上的内部碎片只发生在最后一个块中 我知道理论上你应该能够从索引节点号获得第一个和最后一个块地址 但我不知
  • 运行实体框架自定义工具,它有什么作用?

    在 Visual Studio 中 当使用实体框架并为 tt 和 Context tt 文件应用运行自定义工具时 它是什么以及它有什么作用 为什么它解决数据库同步问题 有时 为什么我应该在运行 tt 之前运行它 Context tt 它被称
  • 如何在Windows窗体中打开进程

    我想在我的 Windows 窗体应用程序中打开进程 例如 我希望当用户按下 Windows 窗体容器之一中的按钮时 mstsc exe 将打开 如果他按下按钮 它将在另一个容器上打开 IE DllImport user32 dll SetL
  • 如何在VS2005中使用从.bat而不是.exe启动的外部程序进行调试?

    在我的 c 项目的调试属性中 我选择了 启动外部程序 并选择了我希望将调试器附加到的程序的 exe 但是 现在我需要从 bat 文件而不是 exe 启动程序 但 VS2005 似乎不允许这样做 这可能吗 编辑 为了澄清 我需要调试从 bat
  • Clang 5.0 上的 vsprintf 和 vsnprintf [-Wformat-nonliteral] 警告

    我有这段代码 static void err doit int errnoflag int level const char fmt va list ap int errno save unsigned long n char buf MA
  • g++ / gcc 是否支持 C++20 新的atomic_flag 功能?

    根据参考参数 https en cppreference com w cpp atomic atomic flag c 20 有丰富的 对我来说有用的 支持atomic flag运营 然而 目前尚不清楚 gcc 是否支持这些功能 它们在任何
  • C# 多维数组解析

    我有一个多维数组 内容在调试器中看起来像这样 数组设置为 String s new String 6 4 A B Yes C A B Yes C A B No C A B Yes C A B Yes C A B Yes C A B No C
  • 使用通用存储库模式和流畅的 nHibernate

    我目前正在开发一个中型应用程序 它将访问不同站点上的 2 个或更多 SQL 数据库等 我正在考虑使用类似的东西 http mikehadlow blogspot com 2008 03 using irepository pattern w
  • 稀疏矩阵超定线性方程组c/c++库

    我需要一个库来解决 Ax b 系统 其中 A 是一个非对称稀疏矩阵 每行有 8 个条目 而且可能很大 我认为实现双共轭梯度的库应该没问题 但我找不到一个有效的库 我尝试过 iml 但 iml sparselib 包中缺少一些标头 有小费吗
  • 如何将模型绑定到动态创建的类 nancyfx

    首先感谢任何愿意查看我的问题的人 我对 Nancyfx 还很陌生 在尝试将 JSON 有效负载绑定到动态创建的类时遇到问题 我按照这篇文章中的代码动态创建了该类 在C 中动态创建一个类 https stackoverflow com que
  • 使用 XPath 忽略/跳过已知或所有从属标签

    我使用 XPath 和 Hpple libxml2 来解析 iOS iPhone 操作系统中的 HTML 我现在想忽略某个标签 例如粗体标签 b 解析文档时 例如从代码来看 div foo b bar b div 应选择字符串 foo 和
  • NHibernate:无状态会话错误消息无法获取代理

    我正在使用 nHibernate 无状态会话来获取对象 更新一个属性并将对象保存回数据库 我不断收到错误消息 无状态会话无法获取代理 我在其他地方有类似的代码 所以我不明白为什么这不起作用 有谁知道问题可能是什么 我正在尝试更新Screen

随机推荐

  • Swift 中的 CLGeocoder - 使用verseGeocodeLocation 时无法返回字符串

    我正在尝试使用 CLGeocoder 返回字符串中坐标的位置 我的代码目前如下所示 func getPlaceName latitude Double longitude Double gt String let coordinates C
  • Firebase 身份验证电子邮件自定义

    我在我的应用程序中使用 firebase auth 并且正在设置无密码电子邮件注册 我已设法从自己的域设置电子邮件 但如何更改电子邮件中发送的魔术链接文本 我可以看到其他模板电子邮件的配置 但看不到这封电子邮件的配置 有问题的电子邮件是这样
  • 获取所有行都为 true 的 id (sqlalchemy)

    我试图找到一种简单的方法来查找特定的表单或表单 其中所有项目都带有form id是活跃的 这是我的Messages table class Messages db Model tablename Messages id db Column
  • 在 Swift 中,如何避免可选值和 nil 对象引用?

    选项的全部原因是为了防止由于命中分配给 nil null none 的变量而导致运行时崩溃 因此 变量不能为nil 相反 它们可以包装在将它们表示为 Some 或 None 的可选类型中 并展开以获取 Some 或 nil 的特定内容 但如
  • VBA隐藏用户表单但保留输入的数据

    我带着我希望是一个相当简单的问题再次回来 我正在尝试在 VBA 中创建用户表单 用户将在表单中输入某些信息 然后关闭表单 我希望用户表单在用户关闭后保留输入的数据 我将它视为一个类模块 因为从技术上讲它们是 或者至少我是这么理解的 这是我正
  • AWS EC2 Angular 5 ng服务不通过浏览器连接

    我设法让我的 Angular 5 应用程序在 AWS EC2 Ubuntu 上运行 启动标准Ubuntu实例 使用PuTTy加壳 安装节点 进入接下来的4条 魔线 mkdir npm global npm config set prefix
  • 具有可变结尾整数的 For 循环

    我有一个包含 40 000 行数据的数据集 我的代码设置为检查第 n 1 行中的日期是否比第 n 行中的日期晚 1 天 如果第 n 行和第 n 1 行中的日期不按正常时间顺序排列 则会添加包含该日期的空白数据的行 我的问题是 因为我在添加行
  • Selenium / java:如何获取总页长度

    使用 Selenium Java 绑定 我正在尝试编写一个简短的模块 它将截取浏览器页面的完整屏幕截图 我知道AShot存在 但没有维护 并且对我来说有一些问题 作为其中的一部分 我想知道我正在处理的整页长度是多少 这样我就可以计算出需要拍
  • 如何在 r markdown 中指定自定义纸张尺寸

    我正在使用 R Markdown 制作一本具有特定高度和长度测量值的小册子 有没有办法指定 R Markdown 以 5 5 x8 5 尺寸生成文章 我看到有关制作 A4 尺寸 pdf 的问题here但这并没有帮助 因为我的措施非常具体 使
  • Java JScrollPane - 多个组件

    我正在尝试在 JScrollPane 中添加 2 个图像 第一个图像是背景 第二个图像与第一个图像重叠 当我运行程序时 问题仅显示第二张图像 请帮忙 ImageIcon ii new ImageIcon mini map png JLabe
  • “一个实体对象不能被 IEntityChangeTracker 的多个实例引用。”

    我使用 MYSql 服务器作为 Windows 窗体应用程序背后的数据库 我的数据库中有两个模式 我必须将条目放入其中 我创建了两个上下文对象 每个对象对应一个模式 当我使用 schema1 上的 contextA 时 所有条目都完美完成
  • 如何将双引号或单引号或不带引号与正则表达式匹配?

    我试图从所有三种类型的输入中获取一些文本 但无法弄清楚如何处理未引用的情况 到目前为止我有 name Input name sometext name sometext name sometext 看起来您是一名 C 开发人员 因此您可以使
  • 安装 Pillow(和 PIL)时出错

    如果我使用命令sudo pip install Pillow 它运行良好 直到清理阶段 这是日志文件中的完整错误消息 clang error unknown argument mno fused madd Wunused command l
  • Apple APP Store 上启用 Bitcode 的移动应用程序大小

    我是新人 尝试在 App Store 上发布我的第一个应用程序 我已经制作了这个应用程序统一 5 6 我面临的问题是生成的存档的大小Xcode 8 3 我必须在 App Store 上上传 它超过 100 MB 而 Play 商店上的同一个
  • 在 Android 中复制 Apple 的搜索

    我想创建一个类似于此处所示的 UIhttp appsreviews com wp content uploads 2010 08 Cures A Z App for iPhone jpg 我开始尝试将两个自定义列表并排放置 就像在这段代码中
  • 将日期时间打印为 pytz.timezone("Etc/GMT-5") 会产生不正确的结果

    考虑以下示例 其中我采用一个简单的日期时间 使其能够识别 UTC 时区 然后转换为 UTC 5 d1 datetime datetime 2019 3 7 7 45 d2 pytz utc localize d1 print f UTC d
  • 如何使用 JFreeChart 创建条形图,通过可见的提示缩短太长的条形图?

    我想创建一个条形图 但是应该缩短非常高的值 下图就是一个例子 source epa gov 我希望我想要的很清楚 我的问题是 我怎样才能做到这一点自由图表 如果 JFreeChart 无法实现 您可以推荐替代的开源 Java 库来生成此类输
  • pandas 按周分组

    我有这个数据框 Name Date Quantity Apple 07 11 17 20 orange 07 14 17 20 Apple 07 14 17 70 Orange 07 25 17 40 Apple 07 20 17 30 我
  • 格式化 posix 时间,仅包含 3 位小数秒数

    相当于什么microsec clock以下代码中的毫秒数 include
  • 如何将 HTML 读取为 XML?

    我想从从互联网下载的 html 页面中提取几个链接 我认为使用 linq to XML 对于我的情况来说是一个很好的解决方案 我的问题是我无法从 HTML 创建 XmlDocument 使用 Load string url 不起作用 所以我