我是 python 新手,正在使用它在我的项目中使用 nltk。对从网页获得的原始数据进行单词标记后,我得到了一个包含 '\xe2' 、'\xe3'、'\x98' 等的列表。但是我不需要这些并想删除它们。
我只是尝试过
if '\x' in a
and
if a.startswith('\xe')
它给了我一个错误,说无效 \x 转义
但是当我尝试正则表达式时
re.search('^\\x',a)
i get
Traceback (most recent call last):
File "<pyshell#83>", line 1, in <module>
print re.search('^\\x',a)
File "C:\Python26\lib\re.py", line 142, in search
return _compile(pattern, flags).search(string)
File "C:\Python26\lib\re.py", line 245, in _compile
raise error, v # invalid expression
error: bogus escape: '\\x'
即使 re.search('^\\x',a) 也没有识别它。
我对此感到困惑,即使谷歌搜索也没有帮助(我可能错过了一些东西)。请建议任何简单的方法来从列表中删除此类字符串以及上面的问题。
提前致谢!
您可以使用unicode(a, 'ascii', 'ignore')
一次性删除字符串中的所有非 ASCII 字符。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)