我从网页获取一些数据并在 python 中像这样读取它
origional_doc = urllib2.urlopen(url).read()
有时此网址包含以下字符é and ä and ect.
,我怎样才能从字符串中删除这些字符,现在这就是我正在尝试的,
import unicodedata
origional_doc = ''.join((c for c in unicodedata.normalize('NFD', origional_doc) if unicodedata.category(c) != 'Mn'))
但我收到一个错误
TypeError: must be unicode, not str
这应该有效。它将消除所有非 ASCII 字符。
original_doc = (original_doc.decode('unicode_escape').encode('ascii','ignore'))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)