有没有办法用简单的 ASCII 替换所有类型的连字符'-'
?我正在寻找类似的适用于空间的东西:
txt = re.sub(r'[\s]+',' ',txt)
我相信一些非 ASCII'-'
连字符避免了删除某些特定停用词(由连字符连接的项目名称)的正确过程。
例如,我想用 AR-L1003 替换此 AR–L1003',但我想对整个文本执行此操作。
您只需在类中列出这些连字符即可。这是一个可能的列表——根据您的需要进行扩展:
txt = re.sub(r'[‐᠆﹣-⁃−]+','-',txt)
标准re
库不支持\p
匹配 unicode 类别的语法,但如果您可以导入regex
,那么有可能:
import regex
txt = regex.sub(r'\p{Pd}+', '-', txt)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)