jsoup 的奇怪编码行为

2024-05-07

我用jsoup从不同页面的html源代码中提取一些信息。大多数都是UTF-8编码的。其中一个是用 ISO-8859-1 编码的，这会导致一个奇怪的错误（在我看来）。

包含错误的页面是：http://www.gudi.ch/armbanduhr-metal-wasserdicht-1280x960- MP3-p-560.html http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html

我用以下代码读取了所需的字符串：

Document doc = Jsoup.connect("http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html").userAgent("Mozilla").get();
String title = doc.getElementsByClass("products_name").first().text();

问题出在字符串“HD Armbanduhr aus Metall 4GB Wasserdicht 1280X960 – 5 Megapixels”中的连字符。正常的元音变音如 öäü 可以正确读取。仅此单个字符，不会输出为“-”造成问题。

我尝试使用 out.outputSettings().charset("ISO-8859-1") 覆盖（正确设置的）页面编码，但这也没有帮助。

接下来，我尝试手动将 Charset 类的字符串编码从 utf8 和 iso-8859-1 更改为 utf8 和 iso-8859-1。也没有运气。

有人提示我在使用 jsoup 解析 html 文档后可以尝试获取正确的字符吗？

Thanks

这是网站本身的错误。其实是三个错误：

页面已送达withoutHTTP 中的任何字符集Content-Type响应头。有ISO-8859-1在 HTML 元标记中，但是当通过 HTTP 提供页面时，这将被忽略！一般的网页浏览器要么尝试智能检测，要么使用平台默认编码对网页进行编码，在 Windows 机器上为 CP1252。
The <meta>标签假装内容是 ISO-8859-1 编码的，但实际字符– (U+2013 EN 破折号 http://www.fileformat.info/info/unicode/char/2013/index.htm) is not covered http://en.wikipedia.org/wiki/ISO/IEC_8859-1#Codepage_layout完全由该字符集决定。然而却是covered http://en.wikipedia.org/wiki/Windows-1252#Codepage_layoutCP1252 字符集为0x0096.
根据网页源码，产品名称使用文字字符–而不是 HTML 实体–正如同一网页上其他地方所发现的那样。

Jsoup 可以透明地修复许多开发不良的网页，但这一个确实超出了 Jsoup 的范围。您需要手动读入它，然后将其作为 CP1252 提供给 Jsoup。

String url = "http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html";
InputStream input = new URL(url).openStream();
Document doc = Jsoup.parse(input, "CP1252", url);
String title = doc.select(".products_name").first().text();
// ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

html

characterencoding

htmlparsing

Jsoup

jsoup 的奇怪编码行为的相关文章

在浏览器中点击应用程序时播放框架挂起

我正在 Play 中运行一个应用程序activator run 也许 5 次中有 3 次它会挂起当我去http localhost 9000 它就永远坐在那里旋转我看到很多promise timed out错误也我应该去哪里寻找这个
用于渲染 html 子集的 Django templatetag

我有一些 html 在本例中是通过 TinyMCE 创建的我想将其添加到页面中但是出于安全原因我不想只打印用户输入的所有内容有谁知道模板标签最好是过滤器只允许呈现 html 的安全子集我意识到 Markdown 和其他人就是
宽度：适合内容；在 Chrome 上工作，但在资源管理器上不工作

我构建了一个应用程序所有内容都在 Chrome 中完美显示但如果我在 Windows 资源管理器中打开该应用程序容器会比应有的小我在用着width fit content 这是只适用于 Chrome 的东西吗我怎样才能使其适用于所
如何在jsp代码中导入java库？

我有以下jsp代码我想添加 java io 等库我怎样才能做到这一点
请求位置更新参数

这就是 requestLocationUpdates 的样子我使用它的方式 requestLocationUpdates String provider long minTime float minDistance LocationLis
检查 Android 手机上的方向

如何查看Android手机是横屏还是竖屏当前配置用于确定要检索的资源可从资源中获取Configuration object getResources getConfiguration orientation 您可以通过查看其值来检查方向
Spring Data 与 Spring Data JPA 与 JdbcTemplate

我有信心Spring Data and Spring Data JPA指的是相同的但后来我在 youtube 上观看了一个关于他正在使用JdbcTemplate在那篇教程中所以我在那里感到困惑我想澄清一下两者之间有什么区别Spring
反思 Groovy 脚本中声明的函数

有没有一种方法可以获取 Groovy 脚本中声明的函数的反射数据该脚本已通过GroovyShell目的具体来说我想枚举脚本中的函数并访问附加到它们的注释 Put this到 Groovy 脚本的最后一行它将作为脚本的返回值 a la
Outlook 2013 渲染问题：嵌套表格截断相邻文本

在开发 html 电子邮件通讯时我经常使用类似于以下的结构 table width 244 border 0 cellpadding 0 cellspacing 0 tr td table border 0 align left tbod
如何在 JFreeChart TimeSeries 图表上显示降雨指数和温度？

目前我的 TimeSeries 图表每 2 秒显示一个位置的温度现在如果我想每2秒显示一次降雨指数和温度我该如何实现呢这是我的代码 import testWeatherService TestWeatherTimeLapseSer
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
尝试使用 Ruby Java Bridge (RJB) gem 时出现错误“无法创建 Java VM”

我正在尝试实现 Ruby Java Bridge RJB gem 来与 JVM 通信以便我可以运行 Open NLP gem 我在 Windows 8 上安装并运行了 Java 所有迹象至少我所知道的都表明 Java 已安装并可运行
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
使用 AWS Java SDK 为现有 S3 对象设置 Expires 标头

我正在更新 Amazon S3 存储桶中的现有对象以设置一些元数据我想设置 HTTPExpires每个对象的标头以更好地处理 HTTP 1 0 客户端我们正在使用AWS Java SDK http aws amazon com sdkf
将多模块 Maven 项目导入 Eclipse 时出现问题 (STS 2.5.2)

我刚刚花了最后一个小时查看 Stackoverflow com 上的线程尝试将 Maven 项目导入到 Spring ToolSuite 2 5 2 中 Maven 项目有多个模块当我使用 STS 中的 Import 向导导入项目时所
将 JSON 参数从 java 发布到 sinatra 服务

我有一个 Android 应用程序发布到我的 sinatra 服务早些时候我无法读取 sinatra 服务上的参数但是在我将内容类型设置为 x www form urlencoded 之后我能够看到参数但不完全是我想要的我在
当单元格内的 JComboBox 中有 ItemEvent 时，如何获取 CellRow

我有一个 JTable 其中有一列包含 JComboBox 我有一个附加到 JComboBox 的 ItemListener 它会根据任何更改进行操作但是 ItemListener 没有获取更改的 ComboBox 所在行的方法当组合框
如何测试 spring-security-oauth2 资源服务器安全性？

随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
AngularJS 在指令运行之前通过 AJAX 检索数据

我正在使用 AngularUIuiMap http angular ui github com directives map实例化谷歌地图的指令 uiMap 指令非常适合处理硬编码数据 mapOptions and myMarkers 但是
Swagger/Openapi-Annotations：如何使用 $ref 生成 allOf？

我正在生成 Rest 端点包括添加OpenAPI Swagger对生成的代码进行注释虽然它对于基本类型运行得很好但我在自定义类方面遇到了一些问题现在我有很多自定义类的重复架构条目使用 Schema 实现 MyClass class

随机推荐

在使用 Ant/Jenkins 时，如何查看同一 Java 项目的不同 Subversion 标签/分支？

这是我的开发配置颠覆之下我有我的project X trunk 带有我最新的开发人员我有我的project X tags 具有不同的版本我正在考虑添加一个分支文件夹我正在使用 Jenkins 使用 Ant 脚本构建我的projec
Java中的引用变量到底是什么？它与其他变量有何不同？

我一直在研究 Java 中的继承作者声明被引用的对象类型而不是引用变量的类型决定了将执行哪个版本的重写方法这种说法非常令人困惑这本书所指的是多态性更具体地通过动态调度简而言之想象一下以下类 public class Per
Spring Data MongoDB 支持枚举吗？

对于Java枚举类型我了解到MongoDB有两种解决方案序列化 http www vineetmanohar com 2010 01 3 ways to serialize java enums and 使用 Jackson 的 Obj
如何将模块化 Sinatra 应用程序部署到 Heroku？

由于某种原因我无法访问公共目录中的任何文件未发现错误我不会把public显然 URL 中的一部分查看GitHub 上的 Lovers 源代码存储库 https github com mattdipasquale loversapp
PDO::debugDumpParams 的输出是否有最大值？

使用 PDO debugDumpParams 时对于选定查询输出显示的字符数是否有最大限制大约 500 个字符后查询将在查询中间结束而在输出准备 query 变量时将显示完整的查询此外当删除查询的某些部分时它仍然显示一
在 google Vision OCR 中被识别为单个单词的特殊字符？

我试图让谷歌视觉 OCR 正则表达式可搜索我已经完成了它并且当文档仅包含英文字符时效果很好但当有其他语言的文本时它就会失败发生这种情况是因为我在谷歌视觉单词组件中只有英文字符如下所示 VISION API WORD COUNTE
有什么方法可以延迟 Visual Studio 中智能感知的淡入时间吗？

我刚刚切换到 VS2008 智能感知比 2005 年更加有用我发现它真的打破了我的注意力每次我到达标记或关键词或其他任何内容的末尾时它都会弹出我必须按 ESC 或忽略它这是really恼人的我无法找到延迟其激活的设置我确实想
扭曲的导航栏自定义后退按钮

我有一个自定义后退按钮该按钮没有按预期显示它正在被拉伸即使后退按钮文本为空它仍然显示后退文本提前致谢我通常使用这种技术来使其发挥作用要删除默认标题 UIBarButtonItem appearance setBackBut
将画布的鼠标坐标转换为地理坐标

我正在尝试使用 Python Tkinter 创建包含意大利所有城市的地图Canvas 我在网上找到了一张意大利地图的图片其中突出显示了一些城市并将其插入到我的Canvas 之后我使用一个函数来确定 2 个突出显示的城市的画布坐标 i
对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
as.data.frame 将嵌套列表展平为单行，而不是为每个记录创建行[重复]

这个问题在这里已经有答案了我有一个嵌套列表如下所示 mylist lt vector list 2 mylist 1 name lt The Tucson IOT Meetup Group mylist 1 state lt AZ my
Python：如何使用 struct.pack_into 将不同类型的数据打包到字符串缓冲区中

我正在尝试将一些无符号 int 数据打包到使用创建的字符串缓冲区中ctypes create string buffer 这是以下代码段以及显示错误的运行示例在键盘上 http codepad org S8nUWMcW import st
为什么我的程序循环太多次？

我是 C 初学者正在尝试创建一个程序但我的主要功能有问题 Problem 在询问他们想要输入多少个整数例如 4 个数字后循环进行 5 次基本上输入 5 个数字它还只在第二个数字之后打印 Next In my while循环我
当存在点和下划线时，使用 sed 搜索并替换

我该如何更换foo with foo sed 只需运行 sed s foo foo g file php 不起作用逃离 sed s foo foo g file php Example cat test txt foo bar sed s
开发iPhone游戏需要什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
错误：在 C++ 中从“const char [5]”转换为非标量类型

public string str Test string str this gt str str cout lt lt constructor lt
asp.net-mvc 中模型绑定双精度的 CultureInfo 问题(2)

在我的 Jquery 脚本中我使用浏览器的 CultureInfo en UK 发布了两个双打该浏览器使用作为分数分隔符我的 MVC 应用程序在区域设置为 nl BE 的服务器上运行使用作为分数分隔符 AcceptVerbs H
为什么 ECMAScript 5 中的 Object 没有 forEach 方法？

ECMAScript 5 的array forEach callback thisArg 迭代数组非常方便并且比 for 语法有很多优点这样更简洁它不会创建我们仅用于迭代目的的变量它为循环的局部变量创建可见范围它提高了性能有没有
matplotlib 的上限/下限

我想用误差线绘制一些数据点其中一些数据点只有上限或下限而不是误差线所以我尝试使用索引来区分带有误差条的点和带有上限下限的点但是当我尝试这样的事情时 errorbar x i y i yerr ymin i ymax i 我收到错
jsoup 的奇怪编码行为

我用jsoup从不同页面的html源代码中提取一些信息大多数都是UTF 8编码的其中一个是用 ISO 8859 1 编码的这会导致一个奇怪的错误在我看来包含错误的页面是 http www gudi ch armbanduhr me

jsoup 的奇怪编码行为

jsoup 的奇怪编码行为 的相关文章

随机推荐

热门标签

jsoup 的奇怪编码行为的相关文章