为什么 codecs.iterdecode() 吃空字符串？

2024-03-10

为什么以下两种解码方法返回不同的结果？

>>> import codecs
>>>
>>> data = ['', '', 'a', '']
>>> list(codecs.iterdecode(data, 'utf-8'))
[u'a']
>>> [codecs.decode(i, 'utf-8') for i in data]
[u'', u'', u'a', u'']

这是错误还是预期行为？我的Python版本2.7.13。

这个是正常的。iterdecode接受编码块上的迭代器并返回解码块上的迭代器，但它不保证一对一的对应关系。它所保证的是所有输出块的串联是所有输入块的串联的有效解码。

如果你看一下源代码 https://github.com/python/cpython/blob/2.7/Lib/codecs.py#L1029，您会看到它显式丢弃空输出块：

def iterdecode(iterator, encoding, errors='strict', **kwargs):
    """
    Decoding iterator.
    Decodes the input strings from the iterator using an IncrementalDecoder.
    errors and kwargs are passed through to the IncrementalDecoder
    constructor.
    """
    decoder = getincrementaldecoder(encoding)(errors, **kwargs)
    for input in iterator:
        output = decoder.decode(input)
        if output:
            yield output
    output = decoder.decode("", True)
    if output:
        yield output

请注意原因iterdecode存在，以及你不直接打电话的原因decode对所有的块来说，解码过程是有状态的。一个字符的 UTF-8 编码形式可能会被分割成多个块。其他编解码器可能具有非常奇怪的有状态行为，例如可能会反转所有字符的大小写的字节序列，直到您再次看到该字节序列。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

Unicode

UTF8

codec

为什么 codecs.iterdecode() 吃空字符串？的相关文章

keras 层教程和示例

我正在尝试编码和学习不同的神经网络模型我对输入维度有很多复杂性我正在寻找一些教程显示层的差异以及如何设置每个层的输入和输出 Keras 文档 https keras io layers core 向您展示所有input shape每层
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
Python3 类型错误：replace() 参数 1 必须是 str，而不是 int

我已经尝试了几天让这段代码在 MacOS 上运行但没有成功你能看一下我错过了什么吗运行 python 3 6 我已经上传了整个代码多谢 usr bin env python3 from future import print fun
matplotlib：在次要标签下绘制主要刻度标签

这看起来应该很容易但我不知道该怎么做我有一个 X 轴上有时间的图我想设置两组刻度小刻度显示一天中的小时大刻度显示日月所以我这样做 set date ticks to something sensible xax ax get
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
如何在 Django 1.4 中自定义管理过滤器

我是 Python 和 Django 开发的新手我从社区提供的易于阅读的示例中学到了很多东西但最近我想为 Django 附带的管理控制台实现一个自定义的管理过滤器我进行了很多搜索只发现了一些过时的方法来完成它例如 Django 1
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
使用 iconv 将 UTF-16BE 转换为无 BOM 的 UTF-8

我正在尝试使用 iconv 将 UTF 16BE 编码文件字节顺序标记 0xFE 0xFF 转换为 UTF 8 如下所示 iconv f UTF 16BE t UTF 8 myfile txt 然而生成的输出具有 UTF 8 字节顺序标
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
当我移动我的 pygame 角色时，它会留下痕迹[重复]

这个问题在这里已经有答案了我一直在尝试用 Python 制作一个游戏但是当我移动我的角色时它会留下痕迹我知道它并没有显示出那么多但如果你靠近的话你可以看到这条踪迹这真的让我很困扰这是我的代码 import pygame im
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
有没有比 Python 内置 == 运算符更快的方法来测试两个列表是否具有完全相同的元素？

如果我有两个列表每个列表有 800 个元素长并填充整数有没有比使用内置元件更快的方法来比较它们具有完全相同的元件如果没有则短路操作员 a 6 2 3 88 54 486 b 6 2 3 88 54 486 a b gt gt gt
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df

随机推荐

在浏览器关闭选项卡或浏览器退出时运行方法

是否有一个可以在 Javascript Angular JQuery 中使用的操作处理程序可以安排在 Web 浏览器中关闭选项卡之前执行的方法关闭我的意思是退出浏览器或关闭选项卡或崩溃或其他什么是的你只需绑定beforeunload
如何在java中从周数、年份和星期几获取日期？

我有周数相应的年份和周数即 1 表示星期一 2 表示星期二依此类推有没有办法在java中找到带有这些信息的日期以下是我在网上找到的一个方法 int week 51 LocalDate wkstart LocalDate now w
如何避免 VBA 中的默认属性陷阱？

我只是偶尔使用 VBA 每次我回到 VBA 时我都会遇到以下一些变化我有一个Range目的 currentCell 我用它来跟踪我在电子表格中使用的单元格当我更新它以指向不同的单元格时我写道 currentCell currentC
Django - 网站主页

我一直在研究 Django 从我所看到的来看它真是太棒了然而我有点困惑如何为我的网站实现主页它是一个单独的应用程序还是只是项目中的一个视图还是什么对此没有真正的规则但我喜欢做的一件事实际上是安排索引访问重定向到另一个位置
html 元素上的 title 属性有什么用？

html 元素上的 title 属性有什么用 div class myDiv title This is the title Stuff div 它的目的是用作工具提示吗它还有什么进一步的用处吗差不多了 HTML 规范称之为咨询文本 h
如何在Cron上动态设置变量？

我正在尝试将 cron 文件放置在 etc croon 中 d 我的问题是我不想保持此文件更新所以我正在寻找一种从文件动态获取软件版本的方法我几乎没有其他变量但现在我认为问题在于 cat software VERSION 它在 she
在 jQuery 中取消延迟的 Promise

如何在不从 DOM 中删除元素的情况下取消 Promise fiddle http jsfiddle net ripper234 LG9eZ 4 我运行了这段代码 box delay 2000 show slow delay 2000 pr
MonadFix 用严格的语言

我正在为 Ocaml 中类似 haskell 的 do 表示法开发 camlp4 扩展并试图弄清楚 GHC 如何编译递归 do 绑定使用 XDoRec 启用我想知道一元定点组合器是否可能以严格的语言存在如 Ocaml F SML 如
Codeigniter 中的“gd-jpeg、libjpeg：可恢复错误：JPEG 文件过早结束”

我正在使用 CodeIgniter 并尝试创建图像的拇指我在某些情况下取得了成功但在某些情况下失败了我收到以下错误 lt lt A PHP Error was encountered Severity Notice Message i
如何在没有 br 的情况下在 html 中进行换行 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有很多内容我将把它上传到我的网站在网站中它看起来没有换行符添加内容需要花费很多时间 br 还有其他方法可以断线吗
索引 API 403 权限被拒绝。无法验证 URL 所有权

我想执行示例中的代码 require once google api php client vendor autoload php client new Google Client service account file json is
Jquery Mobile页面的Loading()方法是如何工作的？

我是 Jquery Mobile 的新手并在重新开发此移动网站时尝试学习它因此我使用 data role page 使用不同的 div 进行所有导航并使用 pagename 进行导航我的问题是以这种方式进行导航如何使用加载消息并
ParseImageView 是否缓存 ParseFile

ParseImageView 是否缓存 Android 中的 ParseFile 如果它缓存了 parseFile 我如何在我的 Android 设备中找到这些文件的路径 ParseImageView imageView ParseImag
Laravel：如何对忽略某种语言文章的雄辩集合进行排序？

在 Laravel 中有没有什么方法可以对集合进行排序而忽略某种语言中的文章例如英语中的 a an the 西班牙语中的 el la 等我想要类似的东西jQuery 表排序器 https mottie github io tables
订阅后进行条带收费，从订阅中获取元数据

当我创建订阅时我设置了一些元数据来标识我在数据库上的订单当我收到 webhook 时charge succeeded订阅中的元数据未在此事件中传递我无法识别与此付款相关的订单如何发送与订阅相关的每个 Webhook 上的元数据订阅
如何设置 checkbox.isChecked 而不引发事件

有没有办法检查CheckBox而不运行与检查相关的代码只是为了视觉外观 Edit private void normalCheck Checked object sender RoutedEventArgs e normal 想象一下我想
固定功能与固定功能着色器 - 帮助理解概念差异

我的背景几个月前我第一次开始尝试 OpenGL 没有什么特殊目的只是为了好玩我开始阅读 OpenGL 红皮书并最终了解了如何制作一个具有多种不同光照的行星系统这种情况持续了一个月我对 openGL 的兴趣就消失了大约一周前它
Python 跳过函数中的参数

初学者在这里我只想知道如何在 python 中跳过参数 def function a b pass function 5 我只想将 5 分配给 b 我该怎么做你可以这样做 def function a None b None pass
如何防止 .NET 应用程序从 GAC 加载/引用程序集？

我可以以引用本地程序集而不是在 Visual Studio 中的方式的方式 Visual Studio 中的设置配置 NET 应用程序吗 GAC http en wikipedia org wiki Global Assembly
为什么 codecs.iterdecode() 吃空字符串？

为什么以下两种解码方法返回不同的结果 gt gt gt import codecs gt gt gt gt gt gt data a gt gt gt list codecs iterdecode data utf 8 u a gt gt

为什么 codecs.iterdecode() 吃空字符串？

为什么 codecs.iterdecode() 吃空字符串？ 的相关文章

随机推荐

热门标签

为什么 codecs.iterdecode() 吃空字符串？的相关文章