将单引号替换为双引号并排除某些元素

2024-04-29

我想用双引号替换字符串中的所有单引号，但出现的情况除外，例如“n't”、“'ll”、“'m”等。

input="the stackoverflow don\'t said, \'hey what\'"
output="the stackoverflow don\'t said, \"hey what\""

代码1:(@https://stackoverflow.com/users/918959/antti-haapala https://stackoverflow.com/users/918959/antti-haapala)

def convert_regex(text): 
     return re.sub(r"(?<!\w)'(?!\w)|(?<!\w)'(?=\w)|(?<=\w)'(?!\w)", '"', text)

有 3 种情况： ' 前面和后面都没有字母数字字符； or 前面不带字母数字字符，但后面带字母数字字符； or 前面有字母数字字符，后面没有字母数字字符。

问题：这不适用于以撇号结尾的单词，即大多数所有格复数形式，而且它也不适用于非正式场合以撇号开头的缩写。

代码2:(@https://stackoverflow.com/users/953482/kevin https://stackoverflow.com/users/953482/kevin)

def convert_text_func(s):
    c = "_" #placeholder character. Must NOT appear in the string.
    assert c not in s
    protected = {word: word.replace("'", c) for word in ["don't", "it'll", "I'm"]}
    for k,v in protected.iteritems():
        s = s.replace(k,v)
    s = s.replace("'", '"')
    for k,v in protected.iteritems():
        s = s.replace(v,k)
    return s

太多的单词无法指定，例如如何指定人等。请帮忙。

Edit 1:我正在使用@anubhava 的精彩答案。我正面临这个问题。有时，该方法会失败的语言翻译。代码=

text=re.sub(r"(?<!s)'(?!(?:t|ll|e?m|s|d|ve|re|clock)\b)", '"', text)

Problem:

在文本中，“Kumbh melas”melas 是印地语到英语的翻译，而不是复数所有格名词。

Input="Similar to the 'Kumbh melas', celebrated by the banks of the holy rivers of India,"
Output=Similar to the "Kumbh melas', celebrated by the banks of the holy rivers of India,
Expected Output=Similar to the "Kumbh melas", celebrated by the banks of the holy rivers of India,

我正在寻找也许添加一个以某种方式修复它的条件。人为干预是最后的选择。

Edit 2:幼稚而漫长的修复方法：

def replace_translations(text):
    d = enchant.Dict("en_US")
    words=tokenize_words(text)
    punctuations=[x for x in string.punctuation]
    for i,word in enumerate(words):
        print i,word
        if(i!=len(words) and word not in punctuations and d.check(word)==False and words[i+1]=="'"):
            text=text.replace(words[i]+words[i+1],words[i]+"\"")
    return text

有没有我遗漏的极端情况或者有更好的方法吗？

第一次尝试

您还可以使用这个正则表达式：

(?:(?<!\w)'((?:.|\n)+?'?)'(?!\w))

REGEX101 中的演示 https://regex101.com/r/rG6gN0/3

这个正则表达式从开头和结尾匹配带有引号的整个句子/单词，而且还捕获第 1 组内的引用内容，因此您可以将匹配的部分替换为"\1".

(?<!\w)- 非单词字符的负向后查找，以排除诸如“you'll”等单词，但允许正则表达式匹配诸如此类的字符之后的引用\n,:,;,. or -，ETC。假设引用前总是有空格是有风险的。
'- 单引号，
(?:.|\n)+?'?)- 非捕获组：一个或多个任何字符或新行（以匹配多行句子）与惰性Quantifire（以避免从第一个到最后一个单引号匹配），然后是可选的单引号，如果有两个连续的话
'(?!\w)- 单引号，后跟非单词字符，以排除像“i'm”、“you're”等文本，其中引号位于单词之间，

S案

然而，在以 s 结尾的单词之后匹配带有撇号的句子仍然存在问题，例如：'the classes' hours'。我认为在什么时候用正则表达式是无法区分的s其次是'应被视为引用结束，或作为或s带撇号。但我想出了一种解决这个问题的有限方法，使用正则表达式：

(?:(?<!\w)'((?:.|\n)+?'?)(?:(?<!s)'(?!\w)|(?<=s)'(?!([^']|\w'\w)+'(?!\w))))

REGEX101 中的演示 https://regex101.com/r/rG6gN0/8

Python 实现 https://ideone.com/EDD2uD

对于有以下情况的情况有额外的选择s': (?<!s)'(?!\w)|(?<=s)'(?!([^']|\w'\w)+'(?!\w) where:

(?<!s)'(?!\w)- 如果没有s before '，与上面的正则表达式匹配（第一次尝试），
(?<=s)'(?!([^']|\w'\w)+'(?!\w)- 如果有s before ', 结束一场比赛'仅当没有其他的情况下'后面跟着非单词以下文本中的字符，位于结尾之前或另一个之前'（但只有'前面有除字母以外的字母s，或打开下一个报价）。这\w'\w就是在这样的匹配中包含一个'位于字母之间，例如i'm, etc.

这个正则表达式应该匹配错误，只有有几个s'连续案例。尽管如此，它还远非完美的解决方案。

\w 的缺陷

另外，使用\w总是有机会'将发生在符号或非之后[a-zA-Z_0-9]但仍然是字母字符，例如某些本地语言字符，然后它将被视为引用的开头。可以通过更换来避免(?<!\w) and (?!\w) with (?<!\p{L}) and (?!\p{L})或者类似的东西(?<=^|[,.?!)\s])等，对引用前句子中可能出现的字符进行正向查找。然而，列表可能会很长。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)