我正在尝试对 R 进行表情符号分析。
我存储了一些带有表情符号的推文。
这是我要分析的推文之一:
> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc
\xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"
确保我有“UTF-8”:
> Encoding(tweetn2)
[1] "UTF-8
”
现在,当我尝试识别一些字符时,效果不佳
> grepl("\\xed",tweetn2)
[1] FALSE
or
> grepl("xed",tweetn2)
[1] FALSE
但表情符号“\xed\xa0\xbd”似乎不是“UTF-8”编码,因为我在写入时收到错误消息:
> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1
我通过使用 iconv() 函数和“ASCII”编码找到了一种解决方案:
http://www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r/
但我想继续使用“UTF-8”进行分析,因为它可以很好地处理法语特殊字母(à、é、è、ê、ë、û 等)
那么你知道我怎样才能超越它吗?
Thanks