正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？

2024-01-16

我正在处理多语言文本数据，其中包括使用西里尔字母的俄语和土耳其语。我基本上必须比较两个文件中的单词my_file and check_file如果这些词在my_file可以找到check_file，将它们写入输出文件中，保留两个输入文件中有关这些单词的元信息。

有些单词是小写的，而其他单词是大写的，所以我必须将所有单词都小写才能比较它们。当我使用 Python 3.6.5 且 Python 3 默认使用 unicode 时，它会处理小写字母，然后正确处理西里尔字母的大写字母。然而，对于土耳其语，某些字母处理不正确。大写'İ'应该对应小写'i', 大写'I'应该对应小写'ı'和小写'i'应该对应于大写'İ'如果我在控制台中键入以下内容，则情况并非如此：

>>> print('İ'.lower())
i̇  # somewhat not rendered correctly, corresponds to unicode 'i\u0307'
>>> print('I'.lower())
i
>>> print('i'.upper())
I

我正在做如下（简化的示例代码）：

# python my_file check_file language

import sys

language = sys.argv[3]

# code to get the files as lists

my_file_list = [['ıspanak', 'N'], ['ısır', 'N'], ['acık', 'V']]
check_file_list = [['109', 'Ispanak', 'food_drink'], ['470', 'Isır', 'action_words'], [409, 'Acık', 'action_words']]

# get the lists as dict
my_dict = {}
check_dict = {}

for l in my_file_list:
    word = l[0].lower()
    pos = l[1]
    my_dict[word] = pos

for l in check_file_list:
    word_id = l[0]
    word = l[1].lower()
    word_cat = l[2]
    check_dict[word] = [word_id, word_cat]

# compare the two dicts
for word, pos in my_dict.items():
    if word in check_dict:
        word_id = check_dict[word][0]
        word_cat = check_dict[word][1]
        print(word, pos, word_id, word_cat)

这只给了我一个结果，但它应该给我三个单词作为结果：

acık V 409 action_words

到目前为止我所做的基于:

阅读建议使用的已接受答案PyICU https://pypi.org/project/PyICU/但我希望我的代码可以使用，而无需人们安装东西，所以我没有实现它。
试着import locale and locale.setlocale(locale.LC_ALL, 'tr_TR.UTF-8')正如问题中提到的，但它没有改变任何东西。

实现两个功能turkish_lower(self) and turkish_upper(self)对于第二个答案中描述的三个有问题的字母，这似乎是唯一的解决方案：

def turkish_lower(self):
    self = re.sub(r'İ', 'i', self)
    self = re.sub(r'I', 'ı', self)
    self = self.lower()
    return self

def turkish_upper(self):
    self = re.sub(r'i', 'İ', self)
    self = self.upper()
    return self

但是我怎样才能使用这两个函数而不需要检查if language == 'Turkish'每次？我应该重写内置函数吗lower() and upper()？如果是的话，Pythonic 的做法是什么？我是否应该为我正在使用的各种语言实现类并覆盖土耳其语类中的内置函数？

您可以创建一个简单的“语言感知”字符串来子类化str并将执行正确的大写和小写操作，例如：

class LanguageAwareStr(str):
    lang = None


class RussianStr(LanguageAwareStr):
    lang = 'ru'


class TurkishStr(LanguageAwareStr):
    lang = 'tr'

    _case_lookup_upper = {'İ': 'i', 'I': 'ı'}  # lookup uppercase letters
    _case_lookup_lower = {v: k for (k, v) in _case_lookup_upper.items()}

    # here we override the lower() and upper() methods
    def lower(self):
        chars = [self._case_lookup_upper.get(c, c) for c in self]
        result = ''.join(chars).lower()
        cls = type(self)  # so we return a TurkishStr result
        return cls(result)

    def upper(self):
        chars = [self._case_lookup_lower.get(c, c) for c in self]
        result = ''.join(chars).upper()
        cls = type(self)  # so we return a TurkishStr result
        return cls(result)

然后，当您读取字符串时，知道它是什么语言，将其包装在正确的 LanguageAwareStr 子类中，然后定期使用它：


from langaware import RussianStr, TurkishStr

if language == 'turkish':
    LangStr = TurkishStr  # can also create a dict to lookup the correct class

然后，当您读取语言字符串时，只需将它们包装在对LangStr():

for l in my_file_list:
    word = LangStr(l[0]).lower()
    pos = l[1]
    my_dict[word] = pos

for l in check_file_list:
    word_id = l[0]
    word = LangStr(l[1]).lower()
    word_cat = l[2]
    check_dict[word] = [word_id, word_cat]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？的相关文章

python 中的并行处理

在 python 2 7 中进行并行处理的简单代码是什么我在网上找到的所有示例都很复杂并且包含不必要的代码我该如何做一个简单的强力整数分解程序在每个核心 4 上分解 1 个整数我真正的程序可能只需要2个核心并且需要共享信息我知
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
在系统托盘中隐藏 tkinter 窗口 [重复]

这个问题在这里已经有答案了我正在制作一个程序来提醒我朋友的生日这样我就不会忘记祝福他们为此我制作了两个 tkinter 窗口 1 First one is for entering name and birth date 2 Sec
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ？

我正在尝试计算玩家每周玩游戏的次数如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做

随机推荐

IF 语句中的多个 OR 或 AND 条件

我对 IF 语句有一个基本疑问假设我想将字符串 SUN 与字符数组大小 3 匹配 if arr 0 S arr 1 U arr 2 N cout lt lt no else cout lt lt yes 是否在 If 语句中检查了所有条
FIndbug 未识别空指针异常

我正在使用与 Eclipse 集成的 Findbugs 当我在项目上运行 findbugs 时不会捕获以下代码以防止可能的空指针异常在下面的代码片段中对象测试很容易出现 findbugs 无法识别的空指针异常 Override pub
如何隐藏php脚本的源代码？ [复制]

这个问题在这里已经有答案了可能的重复 PHP 代码混淆器 https stackoverflow com questions 232736 code obfuscator for php 隐藏 PHP 源代码的最佳方法是什么 https
java.util.Set.contains(Object o) 的奇怪行为

The doc http docs oracle com javase 6 docs api java util Set html contains java lang Object about java util Set contains
在事件调度线程上——想要摆脱它

假设我拥有的一个方法有时在事件调度线程上被调用有时则不被调用现在假设我想在事件调度线程之外的线程上调用该方法中的一些代码此时是否有办法在除 EDT 之外的线程上运行一些代码我试过这个 if SwingUtilities isEven
在 Python 脚本中对 IP 地址进行排序

我正在尝试对正在读入 python 脚本并打印出来的 IP 地址进行排序我起草的代码读取并打印文件的内容参见示例 usr bin python f open file txt r file contents f read print f
如何让UISlider默认拇指像iOS控制中心那样小

我正在开发一个应用程序并且我有一个自定义UISlider 但是我在如何制作方面遇到了一些问题default拇指看起来更小就像 iOS 控制中心中的拇指一样请注意我想要相同的 iOS 拇指而不是自定义拇指图像到目前为止我已经尝试
火炬。 pin_memory 在 Dataloader 中如何工作？

我想了解 Dataloader 中的 pin memory 是如何工作的根据文档 pin memory bool optional If True the data loader will copy tensors into CUDA p
在 JSF 2.0 组件中包含子元素

这一定很简单我正在尝试将子元素传递到 JSF 组件中我的组件声明为
Java Hash Multi Map（键有多个值）实现

From here http b010 blogspot it 2009 05 speed comparison of 1 javas built in html 我发现柯尔特的OpenIntIntHashMap和特罗夫的TIntIntHa
将相同的“类别”对象分组[重复]

这个问题在这里已经有答案了我正在尝试对以下来源的原始数据进行分组 items category blog id 586ba9f3a36b129f1336ed38 content foo bar category blog id 586ba
Python - Tkinter - 在从 Toplevel() 继承的类中创建的小部件出现在类外部的不同框架中，Toplevel() 类为空

我正在尝试创建一个类并继承自Toplevel 以便该类的 GUI 元素可以包含在单独的窗口中通常我会继承自Frame 但出于我的目的我需要将所有内容都放在窗口中我在 GUI 模板脚本中编写代码只是为了在将其粘贴到我想要使用它的实际脚本
排序在 Knp 分页器中不起作用

我正在使用 knp 分页器捆绑包但出现此错误There is no such field catalogId in the given Query component aliased by u 如果我点击标题排序工作正常但如果我点击c
我可以在 mysqldump cronjob 中使用波浪号 (~) 吗？ Linux Cron 未运行

我遇到了同样的问题这个人 https stackoverflow com questions 42343772 mysqldump is not working in cron and 这个人 https stackoverflow com
D3.js 关键函数在简单的选择器/数组组合上运行两次

学习 d3 当我创建一个简单的数字数组然后尝试将数据绑定到一组简单的元素但使用 key 函数时它会运行两次循环第一次通过时它告诉我数组的值未定义第二次通过时它们就可用了这是 HTML div class testBind d
WebView重置UiMode并打破黑暗主题

我们的应用程序依赖于AppCompatDelegate setDefaultNightMode AppCompatDelegate MODE NIGHT YES 让我们从中选择浅色和深色主题颜色values colors and value
WebSVN - 存储库中路径的身份验证

我需要简单的切中要害教程或如何使用 WebSVN 从单个 Subversion 存储库实现路径签出目录授权的简洁示例假设存储库是 svn repos r project 此存储库的两个签出路径是 svn repos path1
将证书添加到 Azure VM 规模集

基本上我正在尝试遵循本指南 http ronaldwildenberg com custom domain name and certificate for your azure service fabric cluster http ro
如何获取nodejs mysql连接池中未使用/已使用的连接数？

我正在使用nodejs连接池和npm的 mysql 模块创建池时我将连接限制指定为 100 我想知道运行时池中有多少连接被使用未使用通过查看源代码在这里 https github com felixge node mysql blo
正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？

我正在处理多语言文本数据其中包括使用西里尔字母的俄语和土耳其语我基本上必须比较两个文件中的单词my file and check file如果这些词在my file可以找到check file 将它们写入输出文件中保留两个输入文件中有

正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？

正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？ 的相关文章

随机推荐

热门标签

正确处理土耳其语大写和小写，需要修改/覆盖内置函数吗？的相关文章