将 Unicode 流重新编码为 Ascii 忽略错误

2023-12-05

我正在尝试获取包含奇数字符的 Unicode 文件流，并用流读取器将其包装，将其转换为 Ascii，忽略或替换所有无法编码的字符。

我的流看起来像：

"EventId","Rate","Attribute1","Attribute2","(｡･ω･｡)ﾉ"
...

我尝试动态更改流的尝试如下所示：

import chardet, io, codecs

with open(self.csv_path, 'rb') as rawdata:
    detected = chardet.detect(rawdata.read(1000))

detectedEncoding = detected['encoding']
with io.open(self.csv_path, 'r', encoding=detectedEncoding) as csv_file:
    csv_ascii_stream = codecs.getreader('ascii')(csv_file, errors='ignore')
    log( csv_ascii_stream.read() )

结果在log线路是：UnicodeEncodeError: 'ascii' codec can't encode characters in position 36-40: ordinal not in range(128)即使我明确地构造了 StreamReadererrors='ignore'

我希望生成的流（读取时）如下所示：

"EventId","Rate","Attribute1","Attribute2","(?????)?"
...

或者，"EventId","Rate","Attribute1","Attribute2","()" (using 'ignore'代替'replace')

为什么会发生异常？

我见过很多解码字符串的问题/解决方案，但我的挑战是在读取流时更改流（使用.next()），因为文件可能太大而无法使用一次全部加载到内存中.read()

您混淆了编码和解码方面。

对于解码，你做得很好。您将其作为二进制数据打开，chardet第一个 1K，然后使用检测到的编码以文本模式重新打开。

但随后您尝试使用以下方法将已解码的数据进一步解码为 ASCIIcodecs.getreader。该函数返回一个StreamReader, which decodes来自流的数据。那是行不通的。你需要encode该数据转换为 ASCII。

但不清楚为什么你要使用codecs流解码器or首先，当您想要做的就是一次对单个文本块进行编码以便您可以记录它时。为什么不直接打电话给encode method?

log(csv_file.read().encode('ascii', 'ignore'))

如果你想要一些可以用作线的惰性迭代的东西，你could构建一些完全通用的东西，但是做类似的事情要简单得多UTF8Recorder中的示例csv docs:

class AsciiRecoder:
    def __init__(self, f, encoding):
        self.reader = codecs.getreader(encoding)(f)    
    def __iter__(self):
        return self
    def next(self):
        return self.reader.next().encode("ascii", "ignore")

或者，更简单地说：

with io.open(self.csv_path, 'r', encoding=detectedEncoding) as csv_file:
    csv_ascii_stream = (line.encode('ascii', 'ignore') for line in csv_file)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

encoding

Stream

codec

将 Unicode 流重新编码为 Ascii 忽略错误的相关文章

如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
IndexError：索引 10 超出尺寸为 10 的轴 0 的范围

我正在以数字方式为 x 网格和 x 向量以及时间网格设置网格但我再次设置了一个数组x 位置只能在 0 到 20 之间并且t 时间将从 0 到 1000 以便求解热方程但每次我想要例如我将步数设置为 10 时都会收到错误 Tra
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

Pandaic 方法检查数据帧是否有任何行[重复]

这个问题在这里已经有答案了给定一个数据框df 我会应用一些条件df condition 并检索一个子集我只想检查子集中是否有任何行这会告诉我条件是有效的 In 551 df Out 551 Col1 0 1 1 2 2 3 3 4 4
Uploadive动态发布输入变量

下面的问题是当函数启动的时候当然 MyInputVariable是空的 function file upload uploadifive auto false dnd true checkScript check exists php
如何序列化属性内具有闭包的对象？

if I do serialize obj I get 不允许序列化 Closure 序列化时有什么方法可以忽略这些闭包吗无论如何当我反序列化字符串时我不需要它们这些属性的值可以为空或其他我的班级看起来像这样 Class Node
扩展方法语法与查询语法[重复]

这个问题在这里已经有答案了我正在尝试了解是否有合适的时机使用标准 linq 关键字或带有 lambda 表达式的 linq 扩展方法他们似乎做同样的事情只是写法不同这纯粹是风格问题吗 var query from p in Prod
带过滤器的 Spring Security 允许所有功能都不起作用

我有这个安全配置 Override public void configure HttpSecurity http throws Exception http addFilterBefore new JwtLoginFilter login
使用 Python C API 版本 2 和 3 的二进制文件

在一个开源项目中1我们使用 Python C API 将 Python Cython 和 C C 模块与一个 C 库混合在一起 API 仅将几个函数的名称从 2 更改为 3 假设该库是在没有这些函数的情况下编写的如果用Python2编译它
GitHub：权限被拒绝（公钥）。 fatal：远端意外挂断

我已按照以下说明上传项目全局设置 Download and install Git git config global user name Your Name git config global user email email prot
快速打印变量内存地址

有没有办法模拟 NSString stringWithFormat p myVar 来自 Objective C 用新的 Swift 语言例如 let str A String println str value str has addr
当 BottomAppBar 从隐藏状态返回时，BottomAppBar FabCradleMargin 变得更小，几乎持平

当 hideonScroll 设置为 true 时在我的应用程序中导航并向上向下滚动时我的底部应用程序栏中的 FabCradleMargin 变得越来越小几乎平坦我遇到了一个问题当 BottomAppBar 从屏幕上隐藏时它会
如何根据另一列的 NaN 值设置 pandas 数据框中的值？

我有名为df具有原始形状 4361 15 一些agefm列的值为 NaN 只是看看 gt df df agefm isnull True agefm shape 2282 然后我创建新列并将其所有值设置为 0 df nevermarr 0
如何在 C# 中登录网页并检索其内容？

如何在 C 中登录网页并检索其内容这取决于登录所需的内容您可以使用 Web 客户端将登录凭据发送到服务器的登录页面通过所需的任何方法 GET 或 POST 但这不会保留 cookie 有一个way让 Web 客户端处理 Cookie
我应该在哪里放置实现相同接口的多个类所需的通用逻辑？

给出以下接口 public interface IFoo bool Foo Person a Person b 以及上述的以下两个实现 public class KungFoo IFoo public bool Foo Person a P
使用 SQLite 的 Django 中的日期时间差异

我正在创建一个需要执行日期差异的 Django 应用程序给定一个模型start date and end date both DateFields 在 Postgres 上它的工作原理如下 model objects annotate
javascript数字精度而不转换为字符串

我正在开发 REST API 并返回 JSON 其中一个字段称为submissionPercent 我需要它是一个数字但精确到小数点后两位如果submissionPercent是20 我需要返回20 00 如果submissionPer
程序hadoop启动错误：PriviledgedActionException

我写了以下程序 using namespace std include hadoop Pipes hh include hadoop TemplateFactory hh include hadoop StringUtils hh incl
BeautifulSoup从评论html中提取文本[重复]

这个问题在这里已经有答案了抱歉如果这个问题与其他问题相似我无法使任何其他解决方案发挥作用我正在使用 beautifulsoup 抓取一个网站并尝试从评论的表字段中获取信息 td span class release span td
将 Google 电子表格 CSV 导入 Pandas 数据框

我将一个文件上传到 Google 电子表格以制作一个可公开访问的示例 IPython Notebook 其中包含数据我使用的文件的本机形式可以读入 Pandas Dataframe 所以现在我使用以下代码来读取电子表格工作正常但只是
Raspbian 上的低功耗蓝牙

我从源代码安装了 bluez 5 15 配置如下 configure prefix usr mandir usr share man sysconfdir etc localstatedir var libexecdir lib disab
我可以在这里避免模板递归吗？

我写了一个for each for tuples template
将 Unicode 流重新编码为 Ascii 忽略错误

我正在尝试获取包含奇数字符的 Unicode 文件流并用流读取器将其包装将其转换为 Ascii 忽略或替换所有无法编码的字符我的流看起来像 EventId Rate Attribute1 Attribute2 我尝试动态更改流的尝试如

将 Unicode 流重新编码为 Ascii 忽略错误

将 Unicode 流重新编码为 Ascii 忽略错误 的相关文章

随机推荐

热门标签

将 Unicode 流重新编码为 Ascii 忽略错误的相关文章