从 1600 万个字符串变量的向量中删除德语(或法语)口音的最佳方法是什么?
例如,“干燥综合征”变为“干燥综合征”
将单个字符转换为单个字符比音译更好,例如
ä => ae ö => oe ü => ue。
例如,使用正则表达式是一种选择,但有更好的选择吗(R 包)?
gsub('ü','u',gsub('ö','o',"Sjögren's syndrome ( über) "))
对于非 R 平台有一些 SO 解决方案,但对于 R 平台来说并不是一个好的解决方案。
Use iconv
通过音译转换为 ASCII(如果支持):
iconv(c("über","Sjögren's"),to="ASCII//TRANSLIT")
[1] "uber" "Sjogren's"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)