让 htmlParse 与希伯来语一起工作？

2024-03-06

我希望 htmlParse 能够很好地处理希伯来语，但它不断地扰乱我输入的页面中的希伯来语文本。

例如：

# why can't I parse the Hebrew correctly?
library(RCurl)
library(XML)
u = "http://humus101.com/?p=2737"
a = getURL(u) 
a # Here - the hebrew is fine.
a2 <- htmlParse(a)
a2 # Here it is a mess...

这些似乎都不能解决这个问题：

htmlParse(a, encoding = "utf-8")
htmlParse(a, encoding = "iso8859-8")

这是我的区域设置：

> Sys.getlocale()
[1] "LC_COLLATE=Hebrew_Israel.1255;LC_CTYPE=Hebrew_Israel.1255;LC_MONETARY=Hebrew_Israel.1255;LC_NUMERIC=C;LC_TIME=Hebrew_Israel.1255"
>

有什么建议么？

Specify UTF-8调用中的编码getURL and htmlParse.

a <- getURL(u, .encoding = "UTF-8")
htmlParse(a, encoding = "UTF-8")

这些区域设置问题总是很难弄清楚。当我打字时cat(a)（指定后UTF-8编码在getURL）我看到he.wrodpress.org页面声称是 UTF-8：<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />，但希伯来语位是 UTF-16。也就是说，它们看起来像<U+05D3><U+05E6><U+05DE><U+05D1><U+05E8>。因此，这可能是由该网页的混合编码引起的问题。

比较几种编码，唯一在我的机器上不会产生乱码的编码是 UTF-8。

(trees <- lapply(c("UTF-8", "UTF-16", "latin1"), function(enc)
{
  a <- getURL(u, .opts = proxy_opts, .encoding = enc)
  htmlParse(a, encoding = enc)
}))

如果绝望了，就过去iconvlist()应用上面的代码，看看是否有任何可能的条件适合您。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

r

rcurl

让 htmlParse 与希伯来语一起工作？的相关文章

如何在 dplyr 中使用切片来保留 R 中具有 NA 值的行

我有以下数据集我想知道每个组的最小单词如果没有最小单词它是 NA 我仍然想显示它 df data frame key c A A B B C word c 1 2 3 5 NA df gt group by key gt slice
尝试通过列表递归时，在 R 中出现错误“递归索引在级别 2 失败”

当我尝试递归遍历图形顶点列表将它们的值与列表中的一组颜色进行匹配时出现错误递归索引在级别 2 失败我的颜色列表如下 colrs lt list l blue c red n gray50 然后我有一个 igraph 中的顶点列表vs
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
将值添加到 rCharts hPlot 工具提示

我想通过 rCharts 向标准 Highcharts 工具提示添加一些额外的值示例代码 require rCharts df lt data frame x c 1 5 y c 5 1 z c A B C D E name c K L
更改 ggplot 条形图填充颜色

有了这个数据 df lt data frame value c 20 50 90 group c 1 2 3 我可以得到一个条形图 df gt ggplot aes x group y value fill value geom col c
如何在 conda 中静音或抑制 gfortran （或 clang？）后端？

我一直致力于构建一个非常特殊的 conda 环境专为python and R与串扰使用rpy2 我想出的方法可以安装正确的R包如下 install main environment sh now date T echo Start Tim
在 R 中将文本文件拆分为段落文件

我正在尝试将一个巨大的 text 文件拆分为多个 text 文件每个文件仅包含一个段落让我举个例子我需要这样的文字这是第一段这没有任何意义因为这只是一个例子这是第二段和前一段一样毫无意义另存为两个独立的 txt 文件其中
XMLReader - 如何处理未声明的命名空间

Merged https meta stackexchange com questions 158066 what is a merged question with 如何使用 XMLReader 读取未定义命名空间的 XML 文件 que
ggmap 错误：GeomRasterAnn 是使用不兼容版本的 ggproto 构建的

我正在使用 ggmap 并收到以下错误 Error GeomRasterAnn was built with an incompatible version of ggproto Please reinstall the package t
使用 gbuffer 在 R 中缓冲（地理）空间点

我正在尝试缓冲数据集中半径为 100 公里的点我正在使用该功能gBuffer从包装中rgeos 这是我到目前为止所拥有的 head sampledf postalcode lat lon city province 1 A0A0A0 47
如何处理重叠的因子水平？（例如，生成表格和图表时）

我面临一个数据集的问题重叠因素水平我想按因素级别生成时间线条形图和统计数据但是我希望因子水平是模棱两可的这意味着属于多个级别的观察结果应该在图中出现多次这是我的数据结构的示例 head lt c ID YEAR BRAZIL G
为 RStudio Server 1.0.44 配置日志目录

我在 CentOS 7 上运行 RStudio Server 1 0 44 根据文档 https support rstudio com hc en us articles 200554766 RStudio Server Applicat
如何在 .NET 中轻松取消转义 XML 实体

我有一些代码返回 XMLNode 的 InnerXML 该节点可以只包含一些文本带有 HTML 或 XML 例如
XPath - 测试是否至少有一个节点具有给定值

给定以下 XML
XDocument.Save() 删除我的实体

我编写了一个工具来使用 C 和 Linq to XML 修复一些 XML 文件即插入一些缺失的属性值该工具将现有 XML 文件加载到 XDocument 对象中然后它向下解析节点以插入丢失的数据之后它调用 XDocument
完全缺失列的 VaR 计算

我需要计算股票收益的滚动 VaR 从这篇文章使用rollapply函数使用R进行VaR计算 https stackoverflow com questions 25045612 using rollapply function for v
使用列表中的数据框：删除变量，添加新变量

定义一个列表dats有两个数据框 df1 and df2 dats lt list df1 data frame a sample 1 3 b sample 11 13 df2 data frame a sample 1 3 b sampl
流畅的 NHibernate 和 XML 列

我正在从头开始构建一个新站点并正在考虑使用 Fluent NHibernate 作为我的 ORM 我认为它可以轻松处理所有事情可能除了我的 XML 列我从来没有使用 NHibernate 构建过网站尽管我使用过 Hibernate
从 org.w3c.dom.Node 获取 Xpath

我可以从 org w3c dom Node 获取完整的 xpath 吗假设当前节点指向 xml 文档中间的某个位置我想提取该元素的 xpath 我正在寻找的输出 xpath 是 parent child1 chiild2 child3
使用 foreach 循环和 XmlNodeList C# 将新节点附加到节点列表

目前我处理的是这样的XML类型 XML FILE http 20drive google com open id 0By5BxgNi9eGcRldxcEZNU0FDTzQ 参考XML文件我想检查一个节点如果找不到该节点我必须将该节点附

随机推荐

检查和删除 Java HashMap 中的元素

我正在尝试使用 Java 中的 HashMap 检查并删除元素它的键是我创建的称为 ClusterKey 的类型它的值是我创建的称为 ClusterValue 的类型这是导致问题的代码 ClusterKey ck new Cluste
EditText setText 不显示在对话框片段上

我对 Android 应用程序开发有点陌生不知道如何调试所以我尝试在 DialogFragment 上执行 EditText setText 它在日志上打印出正确的字符串但仍然显示基于 xml 文件的旧字符串在此处输入项目有什么办
分支的 Git 日志占位符

是否有任何占位符用于显示 git 提交所在的分支名称 pretty format 在 git log 和 git show 中 Like H用于提交哈希 Add the git log decorate它将显示分支标签等如果您还想记录以
如何使用 dplyr::select_if 选择非数字列

我需要选择所有非数字列我可以使用轻松选择所有数字列select if mtcars gt select if is numeric 如果我想选择怎么办non numeric列我试过 mtcars gt select if is nume
文本分类方法？支持向量机和决策树

我有一个训练集我想使用分类方法根据我的训练集对其他文档进行分类我的文档类型是新闻类别是体育政治经济等我完全理解朴素贝叶斯和KNN 但是SVM和决策树很模糊我不知道我是否可以自己实现这个方法或者有使用这种方法的应用程序吗我可
从母版页调用 Html.RenderPartial

这是一个场景假设我的网站有两个控制器负责显示不同类型的内容页面和文章我需要将部分视图嵌入到我的母版页中该母版页将列出按某些条件过滤的页面和文章并显示在每个页面上我无法在我的主页上设置模型我是对的吗如何使用 Html Ren
iPhone 应用程序在设备上崩溃，找不到文件

我看到这个错误无法读取 Developer Platforms iPhoneOS platform DeviceSupport 4 3 2 8H7 Symbols Developer usr lib libXcodeDebuggerSup
无符号整数增量会导致未定义的已定义行为吗？

读完后64 位上的 32 位无符号乘法会导致未定义的行为吗 https stackoverflow com q 27001604 1806289在 StackOverflow 上的问题中我开始思考小型无符号类型上的典型算术运算是否会导致根
如何正确使用九块图像

我想创建某种看起来像这样的行图像但我希望它能够随着屏幕尺寸和密度而缩放所以读这篇文章http developer android com guide developing tools draw9patch html http devel
python virtualenv 未使用正确版本的 python

我正在创建一个 Django 应用程序需要我使用 python2 7 6 我的系统安装了 python3 4 1 所以我必须使用安装了 python2 7 的 virtualenv 我使用 Pycharm 安装了这样一个 virtuale
Rails 3：如何用英语以外的语言格式化日期？

格式化一个Date用英语我做 Date today to s long ordinal gt September 28th 2011 如何用俄语或任何其他语言格式化日期有的是Rails 中的国际化 API http guides ru
django-allauth - 使用 Gmail 帐户发送电子邮件验证

我已经设置 allauth 为每个新注册用户发送一封电子邮件以便可以验证他们的电子邮件现在我使用 email backend 以便将电子邮件发送到终端一切正常但现在我想可以将其全部设置好以便发送电子邮件并且因为我可能在主机服
如何使用 jQuery 在带有动画的表格中添加新行？

这就是我正在做的在表中添加新行的操作 function expandAll myTableID gt tbody gt tr gt td nth child 2 gt div nth child 2 each function html t
android同时显示SIM卡和手机联系人

在我的代码中我应该只显示电话联系人我遵循了之前的帖子但仍然显示电话和 SIM 卡联系人这是我的代码 Uri uri ContactsContract CommonDataKinds Phone CONTENT URI String
DateTime 为空字符串或 null？如何检查？

Q 我想检查日期时间null value如果日期时间为空则清空报告中的单元格但我不知道如何执行此操作它看起来像这样1 1 0001如果它是空的我希望它是空单元格这是我的数据集中的数据类型这是我的列的表达式值 FormatDate
是否有 IntelliJ Java Profiler [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 IntelliJ 是否有像 Matlab 那样的 Profiler 假设你有这个代码 a true i 0 while a if a i
ORA-04084: 无法更改此触发器类型的新值

我正在尝试打开 pl sql 触发器该触发器在故事更改时计算表中某些单元格的总数这是代码 ALTER session SET nls date format dd mm yyyy CREATE OR REPLACE TRIGGER TO
Go 中可以有函数指针吗？

我正在学习 Go 中的指针并设法写出类似的东西 func hello fmt Println Hello World func main pfunc hello pfunc is a pointer to the function hel
2 轴 Reportlab 图

我通过重叠条形图和线罐成功在 ReportLab 中创建了一个 2 轴图对于对类似内容感兴趣的任何人来说这里是代码 from reportlab graphics shapes import Drawing colors from r
让 htmlParse 与希伯来语一起工作？

我希望 htmlParse 能够很好地处理希伯来语但它不断地扰乱我输入的页面中的希伯来语文本例如 why can t I parse the Hebrew correctly library RCurl library XML u ht

让 htmlParse 与希伯来语一起工作？

让 htmlParse 与希伯来语一起工作？ 的相关文章

随机推荐

热门标签

让 htmlParse 与希伯来语一起工作？的相关文章