在对微博等文本数据进行处理的时候发现以往的颜文字之外还会抓取到emoji数据,这部分虽然可以匹配到,但是经常挂一漏万。在网上检索到有一个emoji库可以使用。
直接pip安装emoji库
import emoji
import re
def filter_emoji(desstr,restr=''):
#过滤表情
try:
co = re.compile(u'[\U00010000-\U0010ffff]|\u200b')
except re.error:
co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
return co.sub(restr, desstr)
filter_emoji(str)
str='#双减政策# vipkid政策今天终于还是出了
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)