HTML::PullParser 随机分割文本元素

2024-01-19

我正在使用 Perl 模块HTML::PullParser。我注意到它有时会随机分割文本元素（据我所知）。

例如，如果我有一个 html 文件test.html与内容

<html>
...
<FONT STYLE="font-family:Times New Roman" SIZE="2">THE QUICK BROWN FOX</FONT>
...
</html>

我的 Perl 代码看起来像

my $html = HTML::PullParser->new(file => 'test.html', text => '"T", text');
while (my $token = $html->get_token) {
    print "$$token[1]\n";
}

然后有时我会回来

THE QUICK BROWN FOX    # correctly parsed

但其他时候我得到

THE QUICK
 BROWN FOX

其中文本元素被解析为两个单独的标记。但有时，根据 html 文件的其他内容，我得到

THE QUICK BROWN
 FOX

其中断点不同。这种行为非常令人恼火。我尽力找出问题所在。看起来它取决于整个文件（即，如果我删除文件的其余部分以仅留下该元素，那么就可以了）。但是，我无法确定文件其余部分的哪一部分导致了此问题。想知道是否有人有类似的经历并知道如何解决这个问题？谢谢！！

更新：这种错误行为的发生也不依赖于文件中其他地方的 html 代码的单个部分。我能够在该文本元素之前隔离 html 代码的两个部分 - 当它们都存在时，就会发生此错误。但是，当其中一个单独存在时，这个问题就会消失......我绝对感到困惑和恼火。

HTML::PullParser 是 HTML::Parser 的子类。 HTML::Parser 有一个完整的文本 http://search.cpan.org/perldoc/HTML%3a%3aParser#METHODS属性控制是否尽快吐出文本事件，或者是否缓冲文本直到解析器知道没有更多文本到来。默认是尽快生成文本节点。 A$p->unbroken_text(1)调用应该使其缓冲:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HTML::PullParser 随机分割文本元素的相关文章

.net MVC 将 MP4 流式传输到 iDevice 问题

我一直在编写用于提供视频服务的一段代码但遇到了一些问题代码如下 public ResumingFileStreamResult GetMP4Video string videoID if User Identity IsAuthenti
提交按钮具有 name 属性是否可以接受？

通常提交按钮可以正常工作无需name属性然而有时同一个表单需要有两个提交按钮因此需要使用name属性来识别在服务器端单击了哪个按钮为了澄清我正在谈论
jquery/javascript 处理后移至命名锚点

在进行一些 jquery 处理后如何将焦点移动到同一页面上的不同部分名为锚点函数 ABC 进行一些处理然后我需要将用户移动到同一页面上的某个部分页面下方您可以使用下面的代码将屏幕滚动到 div 只需更改选择器以匹配您要滚动到的
Typeahead.js 干扰 Bootstrap 输入组

如何防止 Typeahead js 拆分我的 Twitter Bootstrap 3 输入组每当我将 Typeahead javascript 指向属于输入组一部分的文本区域时连接的文本区域和提交按钮就会停止连接这只是 Typeahe
当脚本是从加载的脚本动态创建的 DOM 节点时，脚本 onload 和 window.onload 的顺序是否定义良好？

File loader js function main if typeof window undefined var script window document createElement script script src https
使用后代选择器的响应式网站

我试图使用媒体查询使我的网站响应但是当我在代码的某些部分使用后代选择器时页面没有响应当我使用此代码时该页面是响应式的 div1 float left width 20 height 200px background color re
禁用 Materialise Carousel 上的触摸

看起来以前没有人问过这个问题因为我几乎在互联网上寻找一个非常简单的答案如何禁用在物化轮播上向左向右滑动的功能在 Materialize js 添加编辑 var allowCarouselDrag true value functi
如何使盒子阴影显示在容器中的下一个元素上？

请看这段代码 http codepen io Varin pen kkGgVd http codepen io Varin pen kkGgVd div class container div class outside2 div clas
PSD 到 html 转换 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
显示页面的背景颜色并将文本居中对齐

我们的页面如下所示 link http websi career我们想要这样显示 1 我们需要显示文本和textfields在中心 2 我们需要为页面的某些部分添加背景颜色 career page box page title margin
如何在 Perl 中以函数式风格进行编码？

你如何 have a sub返回一个sub or 将文本作为代码执行 in Perl 另外如何拥有匿名函数存储状态子返回子作为coderef example 1 return a sub that is defined inline s
自动解析 PHP，将 PHP 代码与 HTML 分离

我正在开发一个大型 PHP 代码库我想将 PHP 代码与 HTML 和 JavaScript 分开我需要对 PHP 代码进行多次自动搜索和替换对 HTML 进行不同的搜索和替换对 JS 进行不同的自动搜索和替换有没有一个好的解析器
CSS 比例和方形中心裁剪图像

所以我的应用程序中有一个缩略图集合其大小为200x200 有时原始图像没有这个比例所以我计划将此图像裁剪为正方形目前它只是拉伸图像以适合缩略图所以说我的原始图像大小是400x800 那么图像看起来就很压扁我想裁剪此图像以便它查看
jQuery 无法在外部 JavaScript 中工作

我是 jQuery 新手遇到了一些奇怪的问题我正在使用 jQuery 的change and click方法在我的 HTML 文件中使用时它们工作正常
如何将水平 ul 列表中的项目与图像垂直对齐？

我有以下 html 代码 div ul li a href index php site login About a li li a href index php site login FAQ a li li a href http twi
Bootstrap 4：卡片作为具有相同高度和宽度的网格

我正在尝试在具有相同高度和宽度的网格中订购卡片这些卡片将有不同的内容和不同的尺寸每行也应该有 3 个每行的高度可以不同但行内的高度应该相同整个网格中每张卡片的宽度应该相同 div class container div clas
如何正确转义 HTML 属性中的引号？

我在网页上有一个下拉菜单当值字符串包含引号时该下拉菜单会损坏其值为 asd 但在 DOM 中它始终显示为空字符串我已经尝试了所有我知道的方法来正确转义字符串但无济于事
响应覆盖 div 下的链接

场景是这样的我已经构建了一个顶部导航原型它需要在其顶部有一个覆盖透明 PNG 图像目前它覆盖了大约 1 3 的链接请看下面有什么方法可以让前 1 3 的链接做出响应即使有一个 div div 部分覆盖它们覆盖层不会包含任何可
HTML 文本框，自动突出显示文本

我将如何制作一个包含预先存在的文本的文本框当用户在其中单击时其中的所有文本都会突出显示例如 YouTube 在其视频上使用嵌入代码的文本框的方式相同谢谢如果我正确理解你的问题你可以使用一些javascript 未经测试的代码
为什么-标签没有关闭

这是一个普遍问题我的教授都无法回答为什么我不必关闭 HTML 中的标签所有其他标签都必须关闭例如 or 那么为什么不呢首先它根本不是一个标签在名义上基于 SGML 或 XML 的 HTML 版本中它是文件类型声明它具有在

随机推荐

Python 加载 UTF-8 JSON

我有以下 JSON 为简单起见我只使用一个但实际上有 100 个条目 Active false Book US Derivat London Mike bersax Michael Jealous ExpirationDate 2006
从 Eclipse 工作区 .metadata 签入什么内容

我一直在对工作区下的项目进行版本控制但我从未想过应该检查工作区配置本身到目前为止我知道我对永远的浮肿完全没有兴趣 log文件所以我绝对不会签入它但是我可以丢弃其他其他子目录或文件吗应该 lock 尺寸0 被检查了吗关于 pl
如何使用dockerfile在容器运行时运行.sh文件

我正在制作一个 dockerfile 来安装 elasticsearch 6 5 4 并向所需位置添加一些文件并运行名为 test sh 的脚本以在 elasticsearch 运行时在 elasticsearch 中创建新索引我不确定
如何调试此错误：CFNOTIFICATIONCENTER_IS_CALLING_OUT_TO_AN_OBSERVER？

我的应用程序中出现错误我不知道如何解决以前有人见过这个错误 Binary Image Name Address Symbol 0 RepZio 0x002bd302 testflight backtrace 1 RepZio 0x002
C# using 语句位于代码页顶部

几乎所有 C 文件都有using页面顶部的声明 i e using System using System IO code 做什么的using声明意味着位于页面顶部为什么语法与其他的不同using声明声明 i e using Resour
如何使用硒滚动页面

我正在使用 FirefoxDriver 网络驱动程序 Firefox 窗口中加载的页面是一个大页面我想使用 selenium 滚动该页面我想知道如何做到这一点如果你想使用selenium webdriver在firefox窗口上滚动
强制QWebView在单独的线程中下载网页内容？

我如何强制 QWebView 在单独的线程中下载网页和相关内容你不能轻易您可以实现自己的 QNetworkAccessManager 请参阅 createRequest 将工作卸载到另一个线程中的 QNetworkAccessManag
Angular 6 + Popper.js（无 jQuery）

我正在尝试设置 Popper js 以使用 Angular 5 无需 bootstrap 或 jquery 我尝试按照这个https github com FezVrasta popper js react vuejs angular an
Xcode 4 Cmd+alt+上/下重新映射

我意识到头文件和实现文件之间的切换已移至 ctrl cmd up down 然而这非常烦人因为在我可以用一只手的 3 个手指快速完成之前箭头键附近没有 Ctrl 按钮所以我打开首选项发现我可以更改键绑定并尝试按 cmd alt 上
什么时候适合使用引用变量？为什么？您能解释一下实际的语法和位置吗？ [复制]

这个问题在这里已经有答案了我是 C 的新手我们最近开始在课堂上探索参考变量我对它们感到非常困惑不一定是如何做它们因为我知道它们会切换变量值但更多的是沿着为什么开发人员想要做这样的事情他们完成了什么它们节省内存吗他们是否避免
如何在从 v$sql 接收到的 Oracle 查询中查找参数？

我使用查询 select LAST LOAD TIME ELAPSED TIME MODULE SQL TEXT elasped from v sql WHERE MODULE JDBC Thin Client ORDER BY LAST
将十进制小时转换为小时、分钟和秒

xslt 1 0 中是否有更优雅的解决方案我知道 xslt 2 0 有内置函数我正在获取一个以十进制小时表示的数字需要将其表示为 HH MM SS 目前我有以下功能正常的
如何使用 VB6 的 Web 服务？

我需要从 VB6 程序使用外部 Web 服务如果可能的话我希望能够在没有 SOAP 工具包的情况下部署我的程序但这不是必需的我没有网络服务源也没有创建它这是供应商提供的服务那么除了 SOAP 工具包之外使用 VB6 的 W
扩展 MVC3 razor Html.LabelFor 添加 css 类

我正在尝试将 css 类添加到 EditorTemplate 上的 Html LabelFor Html LabelFor model gt model Name new class myLabel 我的期望例如 label 应该选择 cs
BigQuery 写入时数据流作业失败并出现后端错误

我的工作因最终导入 BigQuery 相关的几个不同错误而失败我已经运行了 5 次每次都失败尽管错误消息有时会有所不同当我在本地针对 SQLite 数据库运行该工作时该工作运行良好因此我认为问题出在 Google 后端一条错误
使用 SSL 的 wcf net.tcp

有人有在 WCF 中使用 SSL 和 net tcp 绑定的经验吗我读过这是可能的但没有找到有关如何实现它的良好信息我很想听听任何了解或实施过这一点的人的意见提前致谢看看这个链接里的内容 http msdn microsoft c
通过传递带有要选择的列名称的有序向量，对 dplyr 中的列进行动态排序

我使用下面的代码生成一个简单的汇总表 Data data mtcars Lib require dplyr Summary mt sum lt mtcars gt group by am gt summarise each funs min
php 回显尖括号

我想在页面上显示文本文本应该如下所示
CASE 语句未正确定义列雪花

我有一个以下格式的查询用于执行COALESCE以及使用定义一个新列CASE陈述 SELECT COALESCE mm1 missing AS mm1 COALESCE mm2 missing AS mm2 CASE WHEN mm1 fa
HTML::PullParser 随机分割文本元素

我正在使用 Perl 模块HTML PullParser 我注意到它有时会随机分割文本元素据我所知例如如果我有一个 html 文件test html与内容 font style font family none size 2 THE

HTML::PullParser 随机分割文本元素

HTML::PullParser 随机分割文本元素 的相关文章

随机推荐

热门标签

HTML::PullParser 随机分割文本元素的相关文章