在 R 中分析 Facebook 评论进行情感分析。表情符号是在 符号之间的文本编码。
例子:
"Jesus te ama!!! <U+2764> Ou não...?<U+1F628> (fé em stand by)"
<U+2764>
and <U+1F628>
是表情符号(沉重的黑色心和恐惧的脸,
分别)。
因此,我需要分割单词/数字和标点符号/符号,表情符号代码除外。
我使用 gsub 函数做到了:
a1 <- "([[:alpha:]])([[:punct:]])"
a2 <- "([[:punct:]])([[:alpha:]])"
b <- "\\1 \\2"
gsub(a1, b, gsub(a2, b, "Jesus te ama!!! <U+2764> Ou não...?<U+1F628> (fé em stand by)"))
...但是,从逻辑上讲,结果也会影响表情符号代码:
[1] "Jesus te ama !!! < U +2764> Ou não ...?< U +1F628> ( fé em stand by )"
目标是为 之间的文本创建一个例外,将其在外部拆分并且不在内部拆分 - 即:
[1] "Jesus te ama !!! <U+2764> Ou não ...? <U+1F628> ( fé em stand by )"
注意:
- 有时句子/单词/标点符号和表情符号代码之间不存在空格(需要创建)
- 要求 punct 序列保持连接(例如“!!!”、“...?”)
我该怎么做?