如何从 html 中提取文本

2024-06-12

我需要提取出现在的所有文本<body>html 的。示例 Html 输入：-

<html>
    <title>title</title>
    <body>
           <h1> This is a big title.</h1>
           How are doing you?
           <h3> I am fine </h3>
           <img src="abc.jpg"/>
    </body>
</html>

输出应该是：-

This is a big title. How are doing you? I am fine

我只想使用 Html Agility 来实现此目的。请不要使用正则表达式。

我知道如何加载 HtmlDocument，然后使用像“//body”这样的 xquery 我们可以获得正文内容。但是如何去除输出中显示的 html 内容呢？

提前致谢：）

你可以利用身体的InnerText:

string html = @"
<html>
    <title>title</title>
    <body>
           <h1> This is a big title.</h1>
           How are doing you?
           <h3> I am fine </h3>
           <img src=""abc.jpg""/>
    </body>
</html>";

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
string text = doc.DocumentNode.SelectSingleNode("//body").InnerText;

接下来，您可能想要折叠空格和新行：

text = Regex.Replace(text, @"\s+", " ").Trim();

但请注意，虽然它在这种情况下工作，但诸如hello<br>world or hello<i>world</i>将被转换为InnerText to helloworld- 删除标签。解决这个问题很困难，因为显示通常由 CSS 决定，而不仅仅是由标记决定。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

htmlagilitypack

如何从 html 中提取文本的相关文章

用 C++ 进行服装建模 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在编写一些软件最终会绘制一个人体框架可以配置各种参数并且计划是在假人身上放置某种衣服我研究
C++ 中本地类中的静态成员变量？

我知道我们不能宣布static本地类中的成员变量但其原因尚不清楚那么请问有人可以解释一下吗另外为什么我们不能访问非static函数内部定义的变量内部已经定义了局部类直接在局部类成员函数中在下面给出的代码中 int main i
推导指南中的引用和值之间的差异

考虑类型A template
单元测试一起运行时失败，单独运行时通过

所以我的单元测试遇到了一些问题我不能只是将它们复制并粘贴到这里但我会尽力而为问题似乎是如果我一项一项地运行测试一切都会按预期进行但如果我告诉它一起运行测试则 1 5 将通过 TestMethod public void Obj
C++中的类查找结构体数组

我正在尝试创建一个结构数组它将输入字符串链接到类如下所示 struct string command CommandPath cPath cPathLookup set an alarm AlarmCommandPath send an
用于检查项目文件中的项目变量和引用路径的 api

我正在研究一个 net application VS2010 与 x 没有解和变量号这些解决方案中的项目数量我需要检查项目属性特定于一定数量的项目是否同质并且检查验证构建期间的参考路径有没有一个API是这样的吗如果没有我该
获取 WPF 控件的所有附加事件处理程序

我正在开发一个应用程序在其中动态分配按钮的事件现在的问题是我希望获取按钮单击事件的所有事件因为我希望删除以前的处理程序我尝试将事件处理程序设置为 null 如下所示 Button Click null 但是我收到了一个无法分配 n
关于在 Windows 上使用 WiFi Direct Api？

我目前正在开发一个应用程序我需要在其中创建链接阅读无线网络连接在桌面应用程序在 Windows 10 上和平板电脑 Android 但无关紧要之间工作流程按钮 gt 如果需要提升权限 gt 创建类似托管网络的 WiFi 网
单击 form2 上的按钮触发 form 1 中的方法

我对 Windows 窗体很陌生我想知道是否可以通过单击表单 2 中的按钮来触发表单 1 中的方法我的表格 1 有一个组合框我的 Form 2 有一个保存按钮我想要实现的是当用户单击表单 2 中的保存时我需要检查表单 1
Rx 中是否有与 Task.ContinueWith 运算符等效的操作？

Rx 中是否有与 Task ContinueWith 运算符等效的操作我正在将 Rx 与 Silverlight 一起使用我正在使用 FromAsyncPattern 方法进行两个 Web 服务调用并且我想这样做同步地 var o1
未定义的行为或误报

我基本上在野外遇到过以下情况 x x 5 显然它可以在早期版本的 gcc 下编译干净在 gcc 4 5 1 下生成警告据我所知警告是由 Wsequence point 生成的所以我的问题是这是否违反了标准中关于在序列点之间操
如何将整数转换为 void 指针？

在 C 中使用线程时我面临警告警告从不同大小的整数转换为指针代码如下 include
PlaySound 可在 Visual Studio 中运行，但不能在独立 exe 中运行

我正在尝试使用 Visual Studio 在 C 中播放 wav 文件我将文件 my wav 放入项目目录中并使用代码 PlaySound TEXT my wav NULL SND FILENAME SND SYNC 我按下播放按钮或
Visual Studio 中的测试单独成功，但一组失败

当我在 Visual Studio 中单独运行测试时它们都顺利通过然而当我同时运行所有这些时有些通过有些失败我尝试在每个测试方法之间暂停 1 秒但没有成功有任何想法吗在此先感谢您的帮助你们可能有一些共享数据检查正在使用
HttpWebRequest 在第二次调用时超时

为什么以下代码在第二次及后续运行时超时代码挂在 using Stream objStream request GetResponse GetResponseStream 然后引发 WebException 表示请求已超时我已经尝试过
C++ 密码屏蔽

我正在编写一个代码来接收密码输入下面是我的代码程序运行良好但问题是除了数字和字母字符之外的其他键也被读取例如删除插入等我知道如何避免它吗特q string pw char c while c 13 Loop until Ent
为什么在setsid()之前fork()

Why fork before setsid 守护进程基本上如果我想将一个进程与其控制终端分离并使其成为进程组领导者我使用setsid 之前没有分叉就这样做是行不通的 Why 首先 setsid 将使您的进程成为进程组的领导者但它也
有没有办法强制显示工具提示？

我有一个验证字段的方法如果无法验证该字段将被清除并标记为红色我还希望在框上方弹出一个工具提示并向用户显示该值无效的消息有没有办法做到这一点并且可以控制工具提示显示的时间我怎样才能让它自己弹出而不是鼠标悬停时弹出 If the
英特尔 Pin 与 C++14

问题我有一些关于在 C 14 或其他 C 版本中使用英特尔 Pin 的问题使用较新版本从较旧的 C 编译代码很少会出现任何问题但由于 Intel Pin 是操作指令级别的如果我使用 C 11 或 C 14 编译它是否会出现任何不良
如何使用 Word Automation 获取页面范围

如何使用办公自动化找到 Microsoft Word 中第 n 页的范围似乎没有 getPageRange n 函数并且不清楚它们是如何划分的这就是您从 VBA 执行此操作的方法转换为 Matlab COM 调用应该相当简单 Pub

随机推荐

Pandas 中的索引如何工作？

我是Python新手这似乎是一个需要问的基本问题但我真的很想了解这里发生了什么 import numpy as np import pandas as pd tempdata np random random 5 myseries on
单元测试：独立测试与代码重复（DRY）

我正在迈出单元测试的第一步并且不确定在单元测试中似乎相互矛盾的两个范式即每个单元测试都应该是独立的不依赖于其他单元测试不要重复自己更具体地说我有一个要测试的导入器导入器具有导入功能获取原始数据例如从 CSV 中取出
模板化递归数据类型

我有一个像这样的递归数据类型 template
如何从 Javascript 访问 Oracle Apex 变量？

我正在使用 Oracle APEX 但不确定如何从外部 javascript 文件访问以下变量该文件可能位于应用程序服务器上或存储在共享组件 gt 静态文件中 APP ID APP PAGE ID APP SESSION 如何从 java
Solr 7.x 支持 Java 11 吗？

目前我们的应用程序使用 Spring Data Solr Apache Solr 5 3 Java 8 运行我们正在将系统升级到 Java 11 Spring Data Solr 和 Apache Solr 最新版本是否支持 Java 1
如何获取 bson 文档的大小（以字节为单位）

bson文档的size 函数返回的int值是字节数吗无法找到此 API 的详细信息如何获取 bson 文档的大小以字节为单位这是我的代码 import org bson Document MongoDatabase db Mongo
直观地执行不同的排序算法[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
动态加载css的方法

我很早就知道您可以使用 addRule 和 insertRule 动态地将样式规则加载到页面中具体取决于它是 IE 还是兼容标准的浏览器但我刚刚发现在 Chrome 上一种更通用对我来说的方法效果很好创建一个 style 元
Laravel 5：在没有 Composer 的情况下安装 Form 和 HTML 类

我有兴趣在 Laravel 5 上安装 Form 和 HTML 类而不需要 Composer 我怎样才能做到这一点对于那些想说服我使用作曲家的人 1 我想通过自己手动至少一次来看看它的作用 2 我的主机上没有作曲家 3 使用compos
Spring 3.0 SimpleMailMessage 支持

我在我的 gmail 帐户上收到电子邮件但发件人始终是我自己而不是该人的电子邮件地址即使我在实现类中将其硬编码为message setFrom email protected cdn cgi l email protection 仍然
(Python) 我应该使用参数还是将其设为全局参数？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有许多共享相同参数的函数他们将多次输入和输出该参数例如 a foo a fun a a bar a def fun a return a
GWT - onClick 未触发

我在表单上有一个非常奇怪的行为有许多具有内联验证的文本字段如果内容无效则会在字段下方显示错误消息验证在模糊时触发页面底部有一个下一步按钮单击后将执行验证如果一切正常则提交表单现在如果当我单击按钮时强制空白字段具有焦
使用符号求解器仅求解某些变量

我正在尝试在 MATLAB 中求解包含 3 个变量和 5 个常量的方程组是否可以使用solve求解三个变量同时保持常量为符号而不用数值替换它们当您使用SOLVE http www mathworks com access helpde
使用PHP将图像旋转45度时如何避免黑色背景？

您好我必须先翻转缩略图然后才能将其与另一个 jpeg 文件合并但是当我使用 php ini 旋转 45 度时它显示黑色背景我怎样才能避免这种情况任何机构都可以帮助我好吧如果您要生成 jpg 请使用 PHP GD 将背景颜色设置
Linux shell 根据第二列对文件进行排序？

我有一个这样的文件 FirstName FamilyName Address PhoneNumber 如何按 FamilyName 排序如果这是 UNIX sort k 2 file txt 您可以使用多个 k用于对多列进行排序的标志例
Android 中的计时器任务在无限期时间后停止运行

我是安卓新手我正在开发一个应用程序其中一段特定的代码在后台每 5 秒后执行一次为了实现这一目标我使用带有定时器的服务其中包含定时器任务有时它工作正常但经过一段时间后我的服务正在运行但计时器任务在 android 中自动停止
使用从另一个表 MYSQL 获取的值从一个表中选择行

我的数据库中目前有 2 个 mysql 表 Film and Film Ratings Report Film 的主键是filmid用于识别电影分级Film Ratings Report table 我想知道是否可以仅使用 MYSQL 查询
如何在默认 Google 地图上方添加叠加地图？

从一开始就需要明确的是我从未在我的任何程序项目中使用过谷歌地图所以我对此事有一点了解另外我在 SO 中发现了一些关于 Google 地图的其他帖子但我不确定这些帖子是否真的对我的情况有帮助我想要做的是在现有的 Google 地
Async InputQuery 不处理“取消”按钮

我正在使用一个简单的调用TDialogServiceAsync InputQuery 使用单个输入它只是忽略了Cancel按钮和窗口的X关闭按钮 But the Ok按钮工作正常这是我的代码 uses FMX DialogService
如何从 html 中提取文本

我需要提取出现在的所有文本html 的示例 Html 输入 h1 This is a big title h1 How are doing you h3 I am fine h3 img src abc jpg 输出应该是 This is

如何从 html 中提取文本

如何从 html 中提取文本 的相关文章

随机推荐

热门标签

如何从 html 中提取文本的相关文章