我正在尝试使用 NLTKword_tokenize
中的一段文字French通过使用 :
txt = ["Le télétravail n'aura pas d'effet sur ma vie"]
print(word_tokenize(txt,language='french'))
它应该打印:
['Le', 'télétravail', 'n'','aura', 'pas', 'd'','effet', 'sur', 'ma', 'vie','.']
但我得到:
['Le', 'télétravail', "n'aura", 'pas', "d'effet", 'sur', 'ma', 'vie','.']
有谁知道为什么法语中没有正确分割令牌,以及在用法语进行 NLP 时如何克服这个问题(以及其他潜在问题)?