使用 Python 从 HTML 文件中提取文本

2023-11-23

我想使用 Python 从 HTML 文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中，我想要的输出基本上与我得到的输出相同。

我想要比使用正则表达式更强大的东西，因为正则表达式可能会在格式不良的 HTML 上失败。我看到很多人推荐 Beautiful Soup，但我在使用它时遇到了一些问题。其一，它拾取了不需要的文本，例如 JavaScript 源代码。而且，它不解释 HTML 实体。例如，我期望' HTML 源中的撇号将转换为文本中的撇号，就像我将浏览器内容粘贴到记事本中一样。

Update html2text看起来很有希望。它正确处理 HTML 实体并忽略 JavaScript。然而，它并不完全产生纯文本；它会生成 Markdown，然后必须将其转换为纯文本。它没有附带示例或文档，但代码看起来很干净。

使用 Python 从 HTML 文件中提取文本的相关文章

如何默认或通过 CSS 将详细信息元素设置为 OPEN

HTML5 添加了两个新元素可用于标记文章的目录 details and summary 详细信息元素默认为关闭状态隐藏除摘要元素之外的所有内容单击时它会展开以显示其内容当它执行此操作时它会向详细信息元素添加一个 open 属性
平均分配固定大小容器的空间。 Flexbox 的案例？

如何设计 HTML CSS 结构将固定大小的容器水平分成三部分第一部分的高度应与其内容需求一样高第二部分和第三部分将共享剩余的空间五五十无论它们的内容如何如果其内容的大小超过此限制则该部分应该是可滚动的它的 HTML 部分很简
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
为什么内部 DIV 会溢出到外部 DIV 之外？

我已经远离 HTML 和 CSS 很久了找不到这个简单问题的解决方案我有一个 div 位于另一个 div 中外层黑色内层橙色我的 HTML 和 CSS 是 outer position fixed width 30 height
指定 HTML5 输入类型 = 日期的值输出？

我想将本机日期选择器添加到我的应用程序中该应用程序当前使用遗留的本地系统日期输入支持尚未广泛普及但如果我可以基于兼容性提供这两种实现那就太理想了有没有办法指定 HTML 日期选择器给出的值的输出歌剧的默认设置是yyyy mm d
python ttk treeview：如何选择并设置焦点在一行上？

我有一个 ttk Treeview 小部件其中包含一些数据行如何设置焦点并选择突出显示指定项目 tree focus set 什么也没做 tree selection set 0 抱怨尽管小部件明显填充了超过零个项目但未找到项目
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
如何将焦点设置在 BootStrap 中的第一个输入字段上？ [复制]

这个问题在这里已经有答案了可能的重复如何将焦点设置到独立于 id 的 HTML 表单中的第一个输入元素 https stackoverflow com questions 277544 how to set the focus to t
@fontface - 禅宗购物车中的 403 禁止错误

我不确定这是否是发布此内容的正确位置因为我不知道问题出在哪里基本上字体现在对我来说真的很痛苦而且没有任何效果我尝试从 google fonts 加载字体但遇到了 IE 问题所以我决定下载它们并自己提供服务但现在它无法在任何浏
django 模板上的 vscode html 自动套用格式

我喜欢 VSCode 的保存自动格式功能直到它弄乱了我的模板代码它错误地将我的 django 模板语法格式化为一行代码有时非常长的一行所以不用这段代码 for row in ABCDEFGH tr for col in 123456
在 pip.conf 中指定多个可信主机

这是我尝试在我的中设置的 etc pip conf global trusted host pypi org files pythonhosted org 但是它无法正常工作参考 https pip pypa io en stable
WindowsError：[错误 5] 访问被拒绝

我一直在尝试终止一个进程但我的所有选项都给出了 Windows 访问被拒绝错误我通过以下方式打开进程一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
如何在 CSS 中将容器内的多个 div 居中

我正在测试像 Windows Metro 风格的中心分隔线 container height 300px width 70 background EEE margin 10px auto position relative block ba
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
jQuery：向左滑动和向右滑动

我见过slideUp and slideDown在 jQuery 中左右滑动的功能方式怎么样您可以使用 jQuery UI 中的附加效果来做到这一点详情请参阅此处 http docs jquery com UI Effects Sl
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
如何使用 Django (Python) 登录表单？

我在 Django 中构建了一个登录表单现在我遇到了路由问题当我选择登录按钮时表单不会发送正确的遮阳篷我认为前端的表单无法从查看 py 文件所以它不会发送任何 awnser 并且登录过程无法工作该表单是一个简单的静态 html

随机推荐

JavaScript 函数导入不起作用

我正在尝试从单独的 js 文件导入函数当我声明导入命令时页面不执行代码但是当我删除导入命令并执行一个简单的警报 Hello 时页面上会弹出该内容项目结构 Todo 应用程序 js 两个 js main js index html
有没有办法在 Javascript 中获取所有事件侦听器绑定？

我正在寻找一种我可以的方法列出所有事件侦听器绑定是在网站上用 JS 或其他脚本制作的主要是我想找出双重绑定出于调试原因但我想它还有其他问题杰出的将是浏览器的插件您可以在网站上看到哪些元素具有哪些类型eventlisteners边
使用 data.table 进行内存分析

在包含调用的 R 代码中分析内存的正确方法是什么data table功能假设我想确定表达式期间的最大内存使用量该参考文献表明Rprofmem可能不是正确的选择 https cran r project org web packages
组合向量和 data.frame 匹配列值和向量值

I have vetor lt c 1 2 3 data lt data frame id c a b a c a 我需要一个将每个向量值与特定 id 相匹配的 data frame 输出结果 id vector1 1 a 1 2 b 2
CGRect 和 CGPath 的交集

有没有一种有效的方法来检测 CGPath 和 CGRect 是否相交我考虑过循环遍历 CGRect 内的每个点如下所示 for CGPoint point in rect if CGPathContainsPoint path nil
C# 5 的“即发即忘”中的异常处理（在 .net 4.5 中）

考虑以下一劳永逸用例调用者从我的方法请求一些数据我的方法检查缓存以查看数据是否已经存在如果不是它会从源中获取并缓存它调用者在获取结果之前不需要等待缓存发生并且如果缓存失败该方法不应阻止调用者获取结果我今天所拥有的看起来
为什么我的 Python 代码为列表中的所有元素提取相同的数据？

My project consists of making a competitive watch table for hotel rates for an agency It is a painful action that I want
如何查找给定列是否存在唯一键约束

我正在编写一个 perl 脚本我需要在其中运行更新查询但我需要检查 update sql 命令是否不违反唯一键约束所以如果我有一张桌子tb C1 C2 C3 我的更新查询如下 update tb set C1 b1 where C2
如何在HTML中正确引用本地资源？

事实证明引用本地资源可能是一些人的摩擦点我正在寻找本地资源引用的规范答案及其含义拿这些例子来说这些参考路径有什么区别呢 img src myfile png 没有前导斜杠 img src myfile png 带有前导斜杠 img
为什么 n+++n 有效而 n++++n 无效？

在Java中表达式 n n 似乎评估相当于 n n 尽管事实上 n是一个有效的一元运算符其优先级高于算术运算符运算符在n n 因此编译器似乎假设该运算符不能是一元运算符并解析该表达式然而表达式 n n 无法编译即使有一个有效的可
Facebook在iOS6.0中使用SLRequest上传照片无论如何失败

这是我的 Objc 代码 ACAccountStore facebookaccount ACAccountStore alloc init ACAccountType facebookaccountType facebookaccount
电子邮件附件

我希望能够附加我生成的文件即时我不想将文件保存在我的服务器上并通过电子邮件发送出去我已完成所有文本但不知道如何使用 sendmail 将文件附加到电子邮件谢谢 See http railscasts com episodes 2
Android： onPause() 是否保证在 finish() 之后调用？

在任何地方都找不到对此问题的可靠答案我有一个方法其中调用 finish 然后调用 onPause onPause 是否保证在调用 finish 后被调用 Android一般会调用onPause 如果你打电话finish 在您的 Acti
SSL：使用 Python3 的 CERTIFICATE_VERIFY_FAILED

如果这是一个愚蠢的问题我深表歉意但我一直在尝试自学如何使用 BeautifulSoup 以便我可以创建一些项目我按照此链接作为教程 https www youtube com watch v 5GzVNi0oTxQ 在遵循与他完全相同
Android 进程内存使用与电池消耗之间的相关性

我终于找到了一种获取各个进程的 TotalPss 的方法现在我关心的是如何找到每个android进程的电池消耗如果没有直接的方法找到它每个进程的内存使用量和电池消耗之间是否有任何相关性我可以为此研究任何研究论文吗是的内存使用量
VBScript 内存不足错误

我有一个由第三方公司构建的经典 ASP CRM 目前我可以访问源代码并能够进行所需的任何更改一天中通常是在用户长时间使用之后我的大多数页面都会随机出现内存不足错误应用程序的构建方式是所有页面和脚本都从 Global asp 文件中
为什么服务器重置 TCP 后用户代理会重新提交请求？

我们最近注意到一个问题即某些用户代理会重复相同的 POST 请求而用户实际上并没有实际触发它两次经过进一步研究我们注意到只有当请求通过负载均衡器并且服务器花了很长时间来处理请求时才会发生这种情况数据包捕获会话最终显示负载均衡器在
是否有针对受最大宽度或最大高度约束的 IMG 的 CSS 选择器？

如果我定义以下 CSS 规则 img max width 200px max height 200px border 1px solid black 是否有一种纯 CSS 方法来检测那些在没有尺寸限制的情况下会更大的图像对象语义上匹配的东
是否可以使用结构化绑定来分配类成员？

我想使用 C 17 结构化绑定为类成员变量赋值如下所示 include
使用 Python 从 HTML 文件中提取文本

我想使用 Python 从 HTML 文件中提取文本如果我从浏览器复制文本并将其粘贴到记事本中我想要的输出基本上与我得到的输出相同我想要比使用正则表达式更强大的东西因为正则表达式可能会在格式不良的 HTML 上失败我看到很多人推荐

使用 Python 从 HTML 文件中提取文本

使用 Python 从 HTML 文件中提取文本 的相关文章

随机推荐

热门标签

使用 Python 从 HTML 文件中提取文本的相关文章