Python：比较字符串与重音字符不起作用

2024-05-03

我对 python 很陌生。我正在尝试从另一个列表中删除一个列表中出现的文件。这些列表是通过在 mac 和 windows 上重定向 ll -R 生成的（但自从使用其他 python 脚本进行了一些处理 - 合并、排序等）。某些文件名带有重音符号和特殊符号。这些字符串即使相同（打印相同并且在包含列表的文件中看起来相同），也被发现不相等。

我找到了关于如何比较字符串与 unicode 中特殊字符的线程：Python 字符串比较——特殊/Unicode 字符的问题 https://stackoverflow.com/questions/5228925/python-string-comparison-problems-with-special-unicode-characters这和我的问题非常相似。我对编码以及如何更改字符串的编码进行了更多阅读。但是，我尝试了在编解码器文档中可以找到的所有编解码器：https://docs.python.org/2/library/codecs.html https://docs.python.org/2/library/codecs.html对于所有可能的编解码器对，两个字符串不相等（请参见下面的程序 - 尝试了解码和编码选项）。

当我逐一检查两个字符串中的字符时，重音 e 在一个文件中显示为重音 e（一个字符），在另一个文件中显示为两个字符（e 和可打印为空格）。

任何想法，将不胜感激。

我将两个文本文件缩小为一行，每行一个字（显然带有重音）。我将文本文件上传到保管箱：数据中的测试文件 https://www.dropbox.com/s/94qlr93blkj15l6/testfilesindata and 测试缺失文件 https://www.dropbox.com/s/o37p5uibvexkesf/testmissingfiles（但尚未尝试从保管箱下载新副本）。

非常感谢！

附言。抱歉弄乱了链接。我没有声誉10...

#!/usr/bin/python3

import sys

codecs = [ 'ascii', 'big5', 'big5hkscs', 'cp037', 'cp424', 'cp437', 'cp500', 'cp720      ', 'cp737   ', 'cp775', 'cp850', 'cp852', 'cp855', 'cp856   ', 'cp857', 'cp858', 'cp860', 'cp861', 'cp862', 'cp863', 'cp864', 'cp865', 'cp866', 'cp869', 'cp874     ', 'cp875   ', 'cp932', 'cp949', 'cp950', 'cp1006   ', 'cp1026', 'cp1140', 'cp1250', 'cp1251', 'cp1252', 'cp1253', 'cp1254', 'cp1255', 'cp1256', 'cp1257', 'cp1258', 'euc_jp', 'euc_jis_2004', 'euc_jisx0213', 'euc_kr', 'gb2312', 'gbk', 'gb18030', 'hz', 'iso2022_jp', 'iso2022_jp_1', 'iso2022_jp_2', 'iso2022_jp_2004', 'iso2022_jp_3', 'iso2022_jp_ext', 'iso2022_kr', 'latin_1', 'iso8859_2', 'iso8859_3', 'iso8859_4', 'iso8859_5', 'iso8859_6', 'iso8859_7', 'iso8859_8', 'iso8859_9', 'iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15', 'iso8859_16', 'johab', 'koi8_r   ', 'koi8_u      ', 'mac_cyrillic', 'mac_greek', 'mac_iceland', 'mac_latin2', 'mac_roman', 'mac_turkish', 'ptcp154', 'shift_jis', 'shift_jis_2004', 'shift_jisx0213', 'utf_32', 'utf_32_be', 'utf_32_le', 'utf_16', 'utf_16_be', 'utf_16_le', 'utf_7', 'utf_8', 'utf_8_sig' ]

file1 = open('testmissingfiles','r')
file2 = open('testfilesindata','r')

list1 = file1.readlines()
list2 = file2.readlines()

word1 = list1[0].rstrip('\n')
word2 = list2[0].rstrip('\n')

for i in range(0,len(codecs)-1):
    for j in range(0,len(codecs)-1):
        try:
            encoded1 = word1.decode(codecs[i])
            encoded2 = word2.decode(codecs[j])

            if encoded1 == encoded2:
                sys.stdout.write('Succeeded with ' + codecs[i] + ' & ' + codecs[j] + '\n')
        except:
            pass

Use unicodedata.normalize将 to 字符串标准化为相同的范式：

import unicodedata

encoded1 = unicodedata.normalize('NFC', word1.decode('utf8'))
encoded2 = unicodedata.normalize('NFC', word2.decode('utf8'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：比较字符串与重音字符不起作用的相关文章

改变字符串颜色

好的这是我上一个问题的延续但我有代码 private void btnTrans Click object sender EventArgs e var abrvStr inputBx Text foreach var kvp in d
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
运算符“==”不能应用于“int”和“string”类型的操作数

我正在编写一个程序我想到了一个数字然后计算机猜测了它我一边尝试一边测试它但我不断收到不应该出现的错误错误是主题标题我使用 Int Parse 来转换我的字符串但我不知道为什么会收到错误我知道它说不能与整数一起使用但我在网
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

RxJS Angular2 在 Observable.forkjoin 中处理 404

我目前正在链接一堆 http 请求但是在订阅之前我无法处理 404 错误 My code 在模板中 service getData subscribe data gt this items data err gt console log
通过 https 安全登录后，Weblogic 应用程序切换回 http

我已在 Weblogic 9 2 MP3 上成功配置 SSL 我能够使用 https 安全地登录应用程序并继续使用 https 协议处理应用程序当用户访问提供以下 URL 的应用程序时情况就是如此 https servername 7
一种父子关系级联软删除的方法

我有一个简单的架构其中使用软删除这就是它的设计方式并且无法更改有两个表参与该架构 Company id is deleted and Employee id company id is deleted where company id
从文件导入变量创建变量的副本

If I from file import variable and the varable在模块文件中更改 variables 值未更新如果我 import file 变量file variable已更新有没有一种方法可以有选择地从模
如何从命令行运行 spock 测试？

我已经检查过这个链接 https gist github com ysb33r 5825457 https gist github com ysb33r 5825457 似乎可以这样运行 groovyc groovy java cp gra
所有AJAX请求完成时的JQuery调用函数

我的问题是问题的变体here https stackoverflow com questions 970967 jquery ajax call function when all requests are complete 然而有两点不
MPAndroidChart BarChart xValues 问题

我注意到有一个问题BarChart of MPAndroidChart并需要修复首先是我的代码 this barChart BarChart view findViewById R id bar fragment bar chart th
AutoCAD 插件开发示例

我对开发 AutoCAD 插件感兴趣并试图了解几种不同类型的 AutoCAD 插件文件之间的关系随 AutoCAD 插件一起提供的托管 DLL ARX 文件 https fileinfo com extension arx附带 Auto
如何在 SQLite 中插入换行符（“\n”）？

在尝试插入类似以下内容时 Hello nWorld SQLite 抛出类似以下的错误消息无法识别的令牌 Hello 还有一些其他错误即使我将上面的字符串转换为 Hello nWorld or Hello n World 这些转义字符序
退格事件麻烦

我在第 1 页有一个事件侦听器 window addEventListener keydown 这给我带来了问题即第 1 页对话框中的另一个事件侦听器 keydown 与窗口事件侦听器发生冲突有两个事件监听器对话框事件监听器页面事件
使用畸变从图像平面计算相机矢量

我正在尝试使用相机模型来重建可以使用某些相机及其外部内部参数拍摄的图像这一点我没有任何问题现在我想添加扭曲正如它们中所描述的那样OpenCV https docs opencv org 4 x dc dbb tutorial p
React TypeScript - 将动态泛型类型传递到forwardRef组件中

我的问题的核心 const FinalComponent
机器和管道（或其他类似的库）之间的概念区别是什么？

我想学习这个概念以便我能够理解和使用诸如machines http hackage haskell org package machines 我试着跟随R nar Bjarnason 关于机器的演讲 https dl dropbox co
授予对视图的 SELECT 权限，但不授予对基础对象的 SELECT 权限

我经常读到视图的目的之一是安全性允许某些用户访问基础表而其他用户仅访问派生视图考虑到这一点我设计了几个向外部用户提供受限数据集的视图一切都很好但在实践中这是行不通的我授予后SELECT对视图的权限除非我授予否则用户无法访
XPath 直到下一个标签

与之前在这里问过的其他人类似的问题但由于我不知道如何应用这些建议所以我需要一些帮助我想找到一个 html 文档的节点其结构如下摘录可能有所不同 h2 My title 1 h2 h3 Sub heading h3 p span
Laravel Schema onDelete 设置为 null

无法弄清楚如何在 Laravel 中的表上设置正确的 onDelete 约束我正在使用 SqLite table gt gt onDelete cascade works table gt gt onDelete null set nul
.Net 如何创建一个在进程的所有AppDomain之间共享的自定义ThreadPool？

我制作了一个针对我的特定需求进行优化的自定义线程池但是当进程中有多个 AppDomain 时 CLR ThreadPool 能够在所有 AppDomain 之间共享我希望能够重现这种行为这可以使用 MarshalByRefObjec
集合划分比差分获得更好的结果

分区问题 https en wikipedia org wiki Partition problem已知是 NP 困难的根据问题的特定实例我们可以尝试动态规划或一些启发式方法例如差分法也称为 Karmarkar Karp 算法后者
使用 selenium web 驱动程序时如何在测试执行后保持浏览器打开

我的脚本在浏览器的不同选项卡中搜索不同的字符串有没有办法在测试执行结束后保持浏览器打开以便稍后检查结果目前即使我没有使用 driver quit 浏览器也会在 5 分钟后自动关闭 Selenium 2 33 Win 7 FF 和 C
Python：比较字符串与重音字符不起作用

我对 python 很陌生我正在尝试从另一个列表中删除一个列表中出现的文件这些列表是通过在 mac 和 windows 上重定向 ll R 生成的但自从使用其他 python 脚本进行了一些处理合并排序等某些文件名带有重音符号和

Python：比较字符串与重音字符不起作用

Python：比较字符串与重音字符不起作用 的相关文章

随机推荐

热门标签

Python：比较字符串与重音字符不起作用的相关文章