使用 R 文本挖掘包保留土耳其语字符

2024-03-05

首先我要说的是,我仍然是 R 的初学者。 目前,我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术。 然而,我在 R 中显示土耳其语字符时遇到了问题。

这就是我所做的:

docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")

我的想法是,将语言设置为土耳其语并将编码设置为 UTF-8(这是文本文件的原始编码)应该可以显示土耳其语字符 ı、ı、ğ、Ğ、ş 和 Ş。相反,输出将这些字符分别转换为 I、i、g、G、s 和 S,并将其保存为 ANSI 编码,该编码无法显示这些字符。

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))

还保存不带 ANSI 编码字符的文件。

这似乎不仅仅是输出文件的问题。

writeLines(as.character(docs[[1]])

例如,生成的一行应为“Okul ve cami açılışları umutları artırdı”,但改为“Okul ve cami açilislari umutlari artirdi”

读完这篇文章后:R 中的 UTF-8 文件输出 https://stackoverflow.com/questions/10675360/utf-8-file-output-in-r我还尝试了以下代码:

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)

这并没有改变结果。

所有这些都在带有最新版本的 R 和 RStudio 的 Windows 7 上进行。

有没有办法来解决这个问题?我可能错过了一些明显的东西,但任何帮助将不胜感激。


这是我保持土耳其语字符完整的方法:

  1. 在 RStudio 中打开一个新的 .Rmd 文件。 (RStudio -> 文件 -> 新建文件 -> R Markdown)
  2. 复制并粘贴包含土耳其语字符的文本。
  3. 使用编码保存 .Rmd 文件。 (RStudio -> 文件 ->使用编码保存..-> UTF-8)
  4. yourdocument 编码=“UTF-8”)
  5. 你的文档
  6. 完成此步骤后,您可以创建语料库
  7. 例如从 tm 包中的 VectorSource() 开始。
  8. 土耳其字符将按其应有的方式显示。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 R 文本挖掘包保留土耳其语字符 的相关文章

随机推荐