Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 1070 中的字节 0x9d：字符映射到 <未定义>

2024-04-05

尝试对某些文件批量运行正则表达式。

正则表达式代码：

import re


def DOCtoSTRING(path):

   return text

def valuesHextractor(text):
   STRING =""
   #let's find pacient personal info
   regex = re.compile('CONSULTAŢIE(?s).*EXAMENUL')
   pacientdata=regex.search(text)
   pacientinfo = re.sub('[A-Z]+:',"",pacientdata[0])
   STRING=STRING+pacientinfo.strip("CONSULTAŢIE").strip("EXAMENUL")+" "

   #values
   regex = re.compile('EXAMENUL OFTALMOLOGIC:(?s).*TRATAMENT')
   pacientvalues=regex.search(text)

   #AV OD
   #fc
   regex=re.compile("1.AV.*OD.*?fc[;\.\+\- 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVODfc=re.sub("1.AV.*OD.*?fc[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODfc)==None:
       AVODfc="None"
   STRING=STRING+AVODfc+" "
   #cc
   regex=re.compile("1.AV.*OD.*?cc[;\.\+\- 0-9]*")
   AVcc=regex.search(pacientvalues[0])
   AVODcc=re.sub("1.AV.*OD.*?cc[;\. 0-9]*?","",AVcc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODcc)==None:
       AVODcc="None"
   STRING=STRING+AVODcc+" "
   #cyl
   regex=re.compile("1.AV.*OD.*?cyl[;\.\+\- 0-9]*")
   AVcyl=regex.search(pacientvalues[0])
   AVODcyl=re.sub("1.AV.*OD.*?cyl[;\. 0-9]*?","",AVcyl[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODcyl)==None:
       AVODcyl="None"
   STRING=STRING+AVODcyl+" "
   #ax
   regex=re.compile("1.AV.*OD.*?ax[;\.\+\- 0-9]*")
   AVax=regex.search(pacientvalues[0])
   AVODax=re.sub("1.AV.*OD.*?ax[;\. 0-9]*?","",AVax[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODax)==None:
       AVODax="None"
   STRING=STRING+AVODax+" "

   #AV OS
   #fc
   regex=re.compile("1.AV.*OS.*?fc[;\. 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVOSfc=re.sub("1.AV.*OS.*?fc[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSfc)==None:
       AVOSfc="None"
   STRING=STRING+AVOSfc+" "
   #cc
   regex=re.compile("1.AV.*OS.*?cc[;\.\+\- 0-9]*")
   AVcc=regex.search(pacientvalues[0])
   AVOScc=re.sub("1.AV.*OS.*?cc[;\. 0-9]*?","",AVcc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOScc)==None:
       AVOScc="None"
   STRING=STRING+AVOScc+" "
   #cyl
   regex=re.compile("1.AV.*OS.*?cyl[;\.\+\- 0-9]*")
   AVcyl=regex.search(pacientvalues[0])
   AVOScyl=re.sub("1.AV.*OS.*?cyl[;\. 0-9]*?","",AVcyl[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOScyl)==None:
       AVOScyl="None"
   STRING=STRING+AVOScyl+" "
   #ax
   regex=re.compile("1.AV.*OS.*?ax[;\.\+\- 0-9]*")
   AVax=regex.search(pacientvalues[0])
   AVOSax=re.sub("1.AV.*OS.*?ax[;\. 0-9]*?","",AVax[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSax)==None:
       AVOSax="None"
   STRING=STRING+AVOSax+" "


############From here ignore names check only the #name

####### DP
   regex=re.compile("1.AV.*OS.*?DP=[;\.\+\- 0-9]*")
   AVax=regex.search(pacientvalues[0])
   AVOSax=re.sub("1.AV.*OS.*?DP=[;\. 0-9]*?","",AVax[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSax)==None:
       AVOSax="None"
   DP=AVOSax

##########

   #RO OD
   #cyl
   regex=re.compile("2.RO.*OD.*?cyl[;\.\+\- 0-9]*")
   AVcyl=regex.search(pacientvalues[0])
   AVODcyl=re.sub("2.RO.*OD.*?cyl[;\. 0-9]*?","",AVcyl[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODcyl)==None:
       AVODcyl="None"
   STRING=STRING+AVODcyl+" "
   #ax
   regex=re.compile("2.RO.*OD.*?ax[;\.\+\- 0-9]*")
   AVax=regex.search(pacientvalues[0])
   AVODax=re.sub("2.RO.*OD.*?ax[;\. 0-9]*?","",AVax[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODax)==None:
       AVODax="None"
   STRING=STRING+AVODax+" "


   #RO OS
   #cyl
   regex=re.compile("2.RO.*OS.*?cyl[;\.\+\- 0-9]*")
   AVcyl=regex.search(pacientvalues[0])
   AVOScyl=re.sub("2.RO.*OS.*?cyl[;\. 0-9]*?","",AVcyl[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOScyl)==None:
       AVOScyl="None"
   STRING=STRING+AVOScyl+" "
   #ax
   regex=re.compile("2.RO.*OS.*?ax[;\.\+\- 0-9]*")
   AVax=regex.search(pacientvalues[0])
   AVOSax=re.sub("2.RO.*OS.*?ax[;\. 0-9]*?","",AVax[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSax)==None:
       AVOSax="None"
   STRING=STRING+AVOSax+" "

   #3.PIO OD
   regex=re.compile("3.PIO.*OD=[;\.\+\- 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVODfc=re.sub("3.PIO.*?OD=[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODfc)==None:
       AVODfc="None"
   STRING=STRING+AVODfc+" "

   #3.PIO OS
   regex=re.compile("3.PIO.*?OS=[;\. 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVOSfc=re.sub("3.PIO.*?OS=[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSfc)==None:
       AVOSfc="None"
   STRING=STRING+AVOSfc+" "


   #4.FO OD
   regex=re.compile("4.FO(?s).*OD:[;\.\+\- 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVODfc=re.sub("4.FO(?s).*?OD:[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVODfc)==None:
       AVODfc="None"
   STRING=STRING+AVODfc+" "

   #4.FO OS
   regex=re.compile("4.FO(?s).*?OS:[;\. 0-9]*")
   AVfc=regex.search(pacientvalues[0])
   AVOSfc=re.sub("4.FO(?s).*?OS:[;\. 0-9]*?","",AVfc[0])
   regex=re.compile("[\+\-0-9]+")
   if regex.search(AVOSfc)==None:
       AVOSfc="None"
   STRING=STRING+AVOSfc+" "


################################################## NORMAL FROM HERE


   #remove space between a + - and a number    
   STRING=re.sub("\-( )+","-",STRING)
   STRING=re.sub("\+( )+ ","+",STRING)
   STRING=re.sub("(\-\+)","-+ ",STRING)
   STRING=re.sub("(\+\-)","+- ",STRING)

   #treatment
   regex = re.compile('TRATAMENT:(?s).*')
   treatment = regex.search(text)
   treatment = treatment[0].replace('TRATAMENT:',"")
   STRING=STRING+treatment
   STRING=STRING+DP
   regex=re.compile("( )+")
   STRING=STRING.replace('\n',' ').replace('\t', ' ').replace(';','')
   STRING=re.sub(regex," ",STRING)
   print (STRING)

f=open(input("file PATH: ") ,'r')
text=f.read()
valuesHextractor(text)  
f.close

我正在运行的其他代码

f=open("filenames.txt")
for filename in f:
    filename = filename.strip("\n")
    file=open("C:/Users/User/Desktop/toate/"+filename)
    text=file.read()
    valuesHextractor(text)
    file.close()
f.close()

这些文件是.doc - 微软Word 2003.

用记事本打开其中一个文件并尝试Save as它告诉我他们的编码是ANSI.

出现以下错误：

== RESTART: C:/Users/User/AppData/Local/Programs/Python/Python37-32/go.py ==
Traceback (most recent call last):
  File "C:/Users/User/AppData/Local/Programs/Python/Python37-32/go.py", line 4, in <module>
    text=file.read()
  File "C:\Users\User\AppData\Local\Programs\Python\Python37-32\lib\encodings\cp1252.py", line 23, in decode
    return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 1070: character maps to <undefined>
>>>

我该如何解决这个问题？

f=open("filenames.txt")
for filename in f:
    filename = filename.strip("\n")
    file=open("C:/Users/User/Desktop/toate/"+filename, encoding="mbcs") # <-----
    text=file.read()
    valuesHextractor(text)
    file.close()
f.close()

根据这个 Ansi 编码等于 mbcs蟒蛇文档 https://docs.python.org/2.4/lib/standard-encodings.html。然后用打开文件encoding="mbcs"应该可以解决问题。

Update：错误“UnicodeDecodeError”已经暗示 python 已经尝试使用“utf-8”对其进行解码，但失败了。因此，使用“utf-8”不是一个选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 1070 中的字节 0x9d：字符映射到 <未定义> 的相关文章

如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

我想绘制一个 pandas 系列其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
Python Flask 是否定义了路由顺序？

在我看来我的设置类似于以下内容 app route test def test app route
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
如何使用 Django (Python) 登录表单？

我在 Django 中构建了一个登录表单现在我遇到了路由问题当我选择登录按钮时表单不会发送正确的遮阳篷我认为前端的表单无法从查看 py 文件所以它不会发送任何 awnser 并且登录过程无法工作该表单是一个简单的静态 html
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

静态数据成员数组界限的求值范围

我本来打算针对 GCC 提交一个错误但后来意识到如果我对标准的解释是正确的那么这是一个核心语言缺陷而不是编译器错误当数组类型的静态数据成员在类作用域之外定义时将在类作用域中查找数组绑定中的标识符 9 4 2 class stat
如何要求泛型类型在泛型函数中实现 Add、Sub、Mul 或 Div 等操作？

我正在尝试在 Rust 中实现一个通用函数其中参数的唯一要求是应该定义乘法运算我正在尝试实现一个通用的权力但会使用更简单的cube函数来说明问题 use std ops Mul fn cube
如何以编程方式更改 UISlider 拇指图像的大小

我想制作自定义 UISlider 像这样的东西 o gt O gt the thumbImage在最小值时会很小滑块值增加时会增加尺寸否则会减小有人知道该怎么做吗您可以使用此代码 UIImage imageWithImage UII
Eclipse 中运行的是哪个版本的 Java？

我如何知道 Eclipse 中运行的是哪个版本的 Java 有没有办法写代码找出来 Package Explorer 中的 JRE System Library JavaSE 1 6 是正确的版本吗如果您想检查您的 vm eclipse
在 WiX 中如何通过名称选择 IIS 网站？

我想做的是向安装程序用户显示其服务器上的网站列表并允许他们选择一个使用此处描述的方法 http www cmcrossroads com content view 13160 120 http www cmcrossroads com
带有 Tensorflow 后端的 Keras 的 K.function 方法是否适用于网络层？

我最近开始使用 Keras 构建神经网络我构建了一个简单的 CNN 来对 MNIST 数据集进行分类在学习我使用的模型之前K set image dim ordering th 为了绘制卷积层权重现在我正在尝试用以下方法可视化卷积层输
Oracle 根据年份选择日期返回不一致的结果

我修改过的 Oracle 视图遇到了一个特殊问题我的想法是我有一个基表用于存储所有选举候选人并且还有一个选举日期列告诉我们该候选人参加了哪次选举就像这样 NAME ELECTION DATE John Smith 01 APR
条件语句中逗号有什么好处？

我们可以写一个if声明为 if a 5 b 6 thisMustBeTrue 并且只有满足最后一个条件才能进入if body 为什么允许稍微改变一下你的例子假设是这样的 if a f 5 b f 6 thisMustBeTrue a b
CSS 媒体查询不起作用[重复]

这个问题在这里已经有答案了我一直尝试在 CSS 文档中进行媒体查询执行以下操作 media screen and max device width 480px css here 但当我在 iPhone 上测试时它不起作用我尝试过更改
fread into struct 读取数据不正确

我正在尝试将位图 bmp 图像标题读入struct in c typedef unsigned short WORD typedef unsigned long DWORD typedef struct BITMAPFILEHEADER W
iOS - 当字符串以算术运算符 + - * / 开头时，NSPredicate string.length 始终计算为 0

我有一个简单的方法使用 NSPredicate 返回 comments length gt 0 的行数问题是我发现当 Comment 列以或开头时长度属性的计算结果始终为 0 因此该行被排除在计数之外我在 SQLite 浏览器
如何为与文本相关的 Angular Material 的 mdRadioButton 指令设置垂直对齐？

如何设置垂直对齐mdRadioButton的指令Angular Material与文字有关我都尝试过layout align and vertical align样式但是单选按钮始终与文本相关居中对齐 here http plnkr c
如何向 mvn spring-boot:run 启动的程序添加 JVM 选项

将 JVM 选项添加到启动的程序的最佳方法是什么mvn spring boot run 您可以配置spring boot maven plugin运行时始终包含 jvm 选项
gnuplot 中的粗体增强文本

更新此问题已在 gnuplot 的较新版本 gt 5 0 中得到解决请参阅 andyras 的回答我很难让 gnuplot 在非 postscript 终端中创建带有粗体和增强文本的标签以下脚本 usr bin env gnuplo
在 DSE 中何时使用 Cassandra 与 Solr？

我使用 DSE 进行 Cassandra Solr 集成以便数据存储在 Cassandra 中并在 Solr 中建立索引很自然地分别使用 Cassandra 处理 CRUD 操作和使用 Solr 进行全文搜索并且 DSE 确实可以简化
Grails、GPars 和数据持久性

有些东西没有被冲走正在发生的事情的简化示例 def testDemo def person new Person person save flush true println Number of people after save Per
如何去掉 IE8 中 Iframe 的边框

我正在创建一个内部有 iframe 的对话框问题是边框在 IE8 中一直显示这在任何其他浏览器中都可以正常工作这是我尝试过的我也尝试过 border none d dialog find MyCoolDialogInner html
PHP中如何获取图像的像素值？

我需要使用 PHP 读取图像中的每个像素它适用于图形密码项目当用户选择密码时他们将选择图像上的某些区域我正在尝试通过像素值来做到这一点是否可以是的您可以使用颜色获取像素值 imagecolorat http php net
防止 jQuery 中的滚动事件

是否可以阻止 jQuery 中的滚动事件我已经尝试过这段代码但它不起作用 scroll function event event stopPropagation event preventDefault return false 您可以
Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 1070 中的字节 0x9d：字符映射到 <未定义>

尝试对某些文件批量运行正则表达式正则表达式代码 import re def DOCtoSTRING path return text def valuesHextractor text STRING let s find pacient

Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 1070 中的字节 0x9d：字符映射到 <未定义>

Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 1070 中的字节 0x9d：字符映射到 <未定义> 的相关文章

随机推荐

热门标签