首先我要说的是,我仍然是 R 的初学者。
目前,我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术。
然而,我在 R 中显示土耳其语字符时遇到了问题。
这就是我所做的:
docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")
我的想法是,将语言设置为土耳其语并将编码设置为 UTF-8(这是文本文件的原始编码)应该可以显示土耳其语字符 ı、ı、ğ、Ğ、ş 和 Ş。相反,输出将这些字符分别转换为 I、i、g、G、s 和 S,并将其保存为 ANSI 编码,该编码无法显示这些字符。
writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))
还保存不带 ANSI 编码字符的文件。
这似乎不仅仅是输出文件的问题。
writeLines(as.character(docs[[1]])
例如,生成的一行应为“Okul ve cami açılışları umutları artırdı”,但改为“Okul ve cami açilislari umutlari artirdi”
读完这篇文章后:R 中的 UTF-8 文件输出 https://stackoverflow.com/questions/10675360/utf-8-file-output-in-r我还尝试了以下代码:
writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)
这并没有改变结果。
所有这些都在带有最新版本的 R 和 RStudio 的 Windows 7 上进行。
有没有办法来解决这个问题?我可能错过了一些明显的东西,但任何帮助将不胜感激。