将所有连字符类型替换为 ascii 连字符“-”

2024-01-08

有没有办法用简单的 ASCII 替换所有类型的连字符'-'?我正在寻找类似的适用于空间的东西:

txt = re.sub(r'[\s]+',' ',txt)

我相信一些非 ASCII'-'连字符避免了删除某些特定停用词(由连字符连接的项目名称)的正确过程。

例如,我想用 AR-L1003 替换此 AR–L1003',但我想对整个文本执行此操作。


您只需在类中列出这些连字符即可。这是一个可能的列表——根据您的需要进行扩展:

txt = re.sub(r'[‐᠆﹣-⁃−]+','-',txt)

标准re库不支持\p匹配 unicode 类别的语法,但如果您可以导入regex,那么有可能:

import regex

txt = regex.sub(r'\p{Pd}+', '-', txt)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将所有连字符类型替换为 ascii 连字符“-” 的相关文章

随机推荐