使用 R 文本挖掘包保留土耳其语字符

2024-03-05

首先我要说的是，我仍然是 R 的初学者。目前，我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术。然而，我在 R 中显示土耳其语字符时遇到了问题。

这就是我所做的：

docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")

我的想法是，将语言设置为土耳其语并将编码设置为 UTF-8（这是文本文件的原始编码）应该可以显示土耳其语字符 ı、ı、ğ、Ğ、ş 和 Ş。相反，输出将这些字符分别转换为 I、i、g、G、s 和 S，并将其保存为 ANSI 编码，该编码无法显示这些字符。

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))

还保存不带 ANSI 编码字符的文件。

这似乎不仅仅是输出文件的问题。

writeLines(as.character(docs[[1]])

例如，生成的一行应为“Okul ve cami açılışları umutları artırdı”，但改为“Okul ve cami açilislari umutlari artirdi”

读完这篇文章后：R 中的 UTF-8 文件输出 https://stackoverflow.com/questions/10675360/utf-8-file-output-in-r我还尝试了以下代码：

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)

这并没有改变结果。

所有这些都在带有最新版本的 R 和 RStudio 的 Windows 7 上进行。

有没有办法来解决这个问题？我可能错过了一些明显的东西，但任何帮助将不胜感激。

这是我保持土耳其语字符完整的方法：

在 RStudio 中打开一个新的 .Rmd 文件。（RStudio -> 文件 -> 新建文件 -> R Markdown）
复制并粘贴包含土耳其语字符的文本。
使用编码保存 .Rmd 文件。（RStudio -> 文件 ->使用编码保存..-> UTF-8)
yourdocument 编码=“UTF-8”)
你的文档
完成此步骤后，您可以创建语料库
例如从 tm 包中的 VectorSource() 开始。
土耳其字符将按其应有的方式显示。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

encoding

UTF8

tm

使用 R 文本挖掘包保留土耳其语字符的相关文章

如何通过在R闪亮循环中读取.csv文件来动态生成dataTableOutput？

我有一个函数可以生成 n 个数据帧并将其作为 csv 文件保存在某个位置并且该函数返回已保存 CSV 的文件名我希望获取这些 csv 文件使用以下命令读取它read csv 然后使用 renderUI 和 renderDataTabl
闪亮的传单添加大量分离的折线

我有一个 200k 行数据集其中包含出发地和目的地的坐标我有一个 R 闪亮的应用程序带有传单地图可以在这些坐标上显示圆圈尽管坐标数量很大但效果很好这是数据的简化示例每行包含出行id 出发地经纬度目的地经纬度 id lat
数据框中按行相关

我正在尝试计算大型数据帧的所有行之间的相关性到目前为止已经提出了一个有效的简单 for 循环例如 name lt c a b c d col1 lt c 43 78 43 84 37 92 31 72 col2 lt c 43 80 4
如何在 Shiny 应用程序中访问/打印/跟踪当前选项卡选择？

我正在一个闪亮的应用程序中工作我希望能够访问用户在会话中当前所在选项卡上的信息我有一个观察事件用于侦听要单击的特定按钮简而言之我想存储打印用户单击此按钮时所在的当前选项卡单击此按钮后选项卡将更改为带有 updateTabIt
ggplot2中的两列分组

是否可以按两列分组于是叉积就画出来了经过geom point and geom smooth 例如 frame lt data frame series lt rep c a b 6 sample lt rep c glass wate
‘!’ 对于 R 中的因子没有意义

我需要从数据框中排除变量 PABI 所以我按如下方式进行子集化 MyData4 lt subset MyData PROV PABI newdata lt MyData MyData4 但我得到了这个错误 Error in FUN lef
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
如何修改反应链以便最后修改的对象控制其他链接的对象？

新注释 1 最终解决的代码发布在最底部反映了 ismirsehregal 于 2021 年 12 月 3 日的解决方案以及一些标记为 ADDED 和 MODIFIED 的小调整 ADD 是为了解决我在矩阵 2 添加值后从矩阵 1 中删除
将一长行带空格的数据导入R中

这个问题是我上一个问题的后续问题将一长行数据导入到 R 中 https stackoverflow com questions 8389913 我有一个由单行文本组成的大型数据文件格式类似于 Cat 14 15 Horse 16 我最终
Dplyr 过滤多个类似条件

我正在尝试在 dplyr 中做一个过滤器其中的列就像某些观察结果我可以使用 sqldf 作为 Test lt sqldf select from database Where SOURCE LIKE ALPHA OR SOURCE LI
如何在 R 中创建纯 ascii 表作为输出，类似于 MySQL 风格？

我正在尝试为 R 找到一个输出的函数data frameMySQL 风格的 ascii 表中的对象如下 id var1 var2 1 asdf g 2 asdf h 3 asdf j 有这样的功能吗至少有两个工具可以做到这一点 csvfi
省略 RColorBrewer 调色板上较亮的颜色以在 ggplot2 中使用

我想在 RColorBrewer 的 Oranges 调色板中使用较深的颜色以便在我的 ggplot 条形图中使用然而我却做不到帮助下面是示例代码 my palette brewer pal n 9 Oranges 4 9 Bar
缩放geom_密度以将geom_bar与y上的百分比相匹配

因为我对数学感到困惑上次我尝试问这个问题 https stackoverflow com questions 32412805 ggplot2 histogram with density curve that sums to 1 这是另一
R中两个时间之间的时间差

我正在尝试计算 R 中两个时间之间的差异例如两个时间之间的时间差 03 15 和 01 40 将为 1 小时 35 分钟我在 R 中尝试了以下代码 difftime 03 15 01 40 tz units secs 但我收到以下错误
在 R 中运行 glmnet 包，出现错误“缺少 TRUE/FALSE 需要的值”，可能是由于缺少值？

我正在尝试使用glmnet来自glmnet运行 LASSO 回归的包我正在使用以下命令 library glmnet glmnet a b family binomial alpha 1 我收到错误 gt Error in if all
使用带有字边界的 mgsub 函数作为替换值

我试图用空格替换向量中字符串元素的子字符串以下是我们正在考虑的向量 test lt c PALMA DE MALLORCA THE RICH AND THE POOR A CAMEL IN THE DESERT SANTANDER SL
整数的 ASN.1 / DER 编码

我目前开始使用 DER 杰出编码规则编码并且在理解整数编码时遇到问题在参考文档中https www itu int ITU T studygroups com17 languages X 690 0207 pdf https www
如何从 Matlab 运行 R 脚本 [重复]

这个问题在这里已经有答案了我有 m 文件我想用它来运行 R 脚本我怎样才能做到这一点 Matlab文件 caller m some matlab code need to call a R script some matlab cod
如何从线性模型 (lm) 预测 x 值

我有这个数据集 x lt c 0 40 80 120 160 200 y lt c 6 52 5 10 4 43 3 99 3 75 3 60 我使用计算了一个线性模型lm model lt lm y x 我想知道的预测值x如果我有新的y值
表单帖子上的 asp.net mvc 编码

我在我的 asp net mvc 表单带有文本区域的 nicedit 中使用富文本编辑器当我在帖子上提交表单时因为它不是 html 编码的我收到以下消息从客户端检测到潜在危险的 Request Form 值如何对 post 上的

随机推荐

在C程序中打印日语字符

我想使用 C 程序打印日语字符我找到了一些日语字符的 Unicode 范围将它们转换为十进制并使用 for 循环来打印它们 setlocale LC ALL ja JP UTF8 for int i 12784 i lt 12799 i
为什么@PrimaryKey val id: Int？ = null 在创建 Room 实体时有效吗？

我正在关注有关如何使用 Jetpack Compose 创建笔记应用程序的教程这是tutorial https youtu be 8YPXv7xKh2w t 1227 教程中有一点是他创建了这个实体 Entity data class N
PHP 和 JavaScript cookie

我可以用 PHP 访问用 jQuery 的 cookie 插件编写的 cookie 吗我知道你不能将 Javascript 设置为等于 PHP 反之亦然但本质上是 cookie var COOKIE var 再说一次我知道你不能将它们
Java 8 Stream API min() 和 max() 与收集器 minBy() 和 maxBy() [重复]

这个问题在这里已经有答案了在 java 8 中 Stream API 帮助我们以非常干净且更少的代码完成我们的工作我非常喜欢这些流 API 但是很少有操作有助于解决同一类型的问题并且不确定何时使用哪些操作尽管在两者之间进行选择并不
如何使用 Swift 在关闭 ViewController 期间将值从 ViewController B 传递到 ViewController A？ [复制]

这个问题在这里已经有答案了我的场景我试图传递值ViewController B to ViewController A在关闭视图控制器期间这里我使用了下面的代码但我无法获取其中的值ViewController A 视图控制器B pr
如何跨角度模块正确导入/导出类？

这个问题来自于企业应用的背景从我读过的所有书籍和我见过的关于角度应用程序的在线示例中每次我们创建一个类组件服务实体等时我们都会在类型定义上导出它们然后在需要的地方直接导入它们引用类似于在 C 上使用命名空间无论两个类属于
Tensorflow Op：如何包含 libtensorflow_framework.so？

我按照本教程的说明进行操作 https www tensorflow org extend adding an op implement the gradient in python https www tensorflow org ext
如何使用 Prisma 2 和 NodeJS 将图像存储到 PostgreSQL 中？

大家好我一直在寻找类似的可以参考的东西但遗憾的是直到现在我还没有找到希望有人能给我一些指导我使用 filepond 发送 api 请求并使用 prisma 2 客户端存储它谢谢你将图像存储在 Blob 存储中通常是一个很好的做
在我的用户控件中找不到 GotFocus()/LostFocus()

我创建了一个 WinForms 用户控件我读过几个地方的内容GotFocus and LostFocus 事件但我的用户控件未在属性窗口的事件部分中提供这些事件我什至尝试打字override看看这些事件处理程序是否会出现但他
如何将 RVM 与 tcsh 一起使用？

我想将 RVM 与 tcsh 一起使用我该怎么做呢据我所知没有这方面的官方说明我按照将 RVM 与 tcsh 结合使用 http po ru com diary using rvm with tcsh 但这对我不起作用特别是
PowerShell 变量声明中的大括号有什么意义吗？

我遇到过这样声明的变量或参数 var name Hello world 据我所知这与以下内容没有什么不同 var name Hello world 我想知道是否第一个示例中的大括号可以做任何事情或意味着任何事情它们会改变变量的行为吗
如何将 getdate 格式化为 YYYYMMDDHHmmSS

在 SQL Server 中如何格式化getdate 输出到YYYYMMDDHHmmSS where HH是24小时格式吗我有YYYYMMDD完成了 select CONVERT varchar GETDATE 112 但据我所知 Tha
如何防止网格行跨度改变列位置？

我有一个 3 X 3CSS Grid https developer mozilla org en US docs Web CSS CSS Grid Layout 我有一排其中有三项A B C 我想要物品C有一个rowspan of 2
Spring boot 中不渲染 Jsp 视图页面。怎么解决呢？

我正在尝试发出一个 ajax 请求将一个值发送到我的 spring boot 但是一旦我合并了 ajax 调用并且它成功地将值传递给 java 它就不会查看jsp页我认为问题出在方法本身但我不完全确定我再次传递了值但是每当我使用
将功能绑定到按键不起作用

My code import tkinter master tkinter Tk master title test1 master geometry 300x300 masterFrame tkinter Frame master mas
rcs 在 lm() 模型中生成错误的预测

我正在尝试重现这篇博文 http www portfolioprobe com 2011 03 28 the devil of overfitting 关于过度拟合我想探索样条曲线与测试多项式的比较我的问题使用 rcs 受限三次样条
添加 2 级索引作为带有条件的其他索引的总和

我有一个df df pd DataFrame from dict group 0 A 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 B 10 B 11 B 12 B 13 B 14 B 15 B 16 B 17 B 1
重新初始化 ScheduledExecutorService 中的修复延迟

根据我的要求我必须在一段时间后执行一些特定的代码我选择做同样的事ScheduledExecutorService scheduleWithFixedDelay runnable 0 5 TimeUnit SECONDS 它对我来说工作得
Pandas DataFrame 列命名约定

有没有常用的 Pandas DataFrame 列命名约定是PEP8 https www python org dev peps pep 0008 在这里推荐例如实例变量意识到大量数据是从带有标题的外部源加载的但我很好奇当我必须自己
使用 R 文本挖掘包保留土耳其语字符

首先我要说的是我仍然是 R 的初学者目前我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术然而我在 R 中显示土耳其语字符时遇到了问题这就是我所做的 docs lt VCorpus DirSource DIRECTORY e

使用 R 文本挖掘包保留土耳其语字符

使用 R 文本挖掘包保留土耳其语字符 的相关文章

随机推荐

热门标签

使用 R 文本挖掘包保留土耳其语字符的相关文章