python 解码部分 utf-8 字节数组

2024-04-30

我从不了解 UTF-8 规则的通道获取数据。因此，有时当 UTF-8 使用多个字节来编码一个字符并且我尝试将部分接收到的数据转换为文本时，我在转换过程中遇到错误。根据接口的性质（没有任何结束的流），我无法找出数据何时已满。因此我需要处理部分 utf-8 解码。基本上我需要解码我能解码的内容并存储部分数据。存储的部分数据将作为前缀添加到下一个数据。我的问题是 python 中是否有一些简洁的函数允许它？

[编辑] 只是为了向您保证我了解以下功能文档.python https://docs.python.org/3/library/stdtypes.html#bytes.decode

 bytes.decode(encoding="utf-8", errors="ignore")

但问题是它不会返回我错误在哪里，所以我不知道我应该保留多少字节。

您可以调用编解码器模块来救援。它直接为您提供了一个增量解码器，这正是您所需要的：

import codecs

dec = codecs.getincrementaldecoder('utf8')()

你可以喂它：dec.decode(input)结束后，可选择添加dec.decode(bytes(), True)强制它清理任何存储的状态。

测试变成：

>>> def test(arr):
    dec = codecs.getincrementaldecoder('utf8')()
    recvString = ""
    for i in range(len(arr)):
        recvString += dec.decode(arr[i:i+1])
        sys.stdout.write("%02d : %s\n" % (i, recvString))
    recvString += dec.decode(bytes(), True) # will choke on incomplete input...
    return recvString == arr.decode('utf8')

>>> testUtf8 = bytes([0x61, 0xc5, 0xbd, 0x6c, 0x75, 0xc5, 0xa5, 0x6f, 0x75, 0xc4, 0x8d, 0x6b, 0xc3, 0xbd, 0x20, 0x6b, 0xc5, 0xaf, 0xc5, 0x88])
>>> test(testUtf8)
00 : a
01 : a
02 : aŽ
03 : aŽl
04 : aŽlu
05 : aŽlu
06 : aŽluť
07 : aŽluťo
08 : aŽluťou
09 : aŽluťou
10 : aŽluťouč
11 : aŽluťoučk
12 : aŽluťoučk
13 : aŽluťoučký
14 : aŽluťoučký 
15 : aŽluťoučký k
16 : aŽluťoučký k
17 : aŽluťoučký ků
18 : aŽluťoučký ků
19 : aŽluťoučký kůň
True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

UTF8

python 解码部分 utf-8 字节数组的相关文章

使用 Python 编辑 RTF 文件

也许这是一个愚蠢的问题但我不明白所以道歉我有一个 RTF 文档我想更改它例如有一个表我想复制一行并以面向对象的方式更改代码中第二行中的文本我认为 pyparsing 应该是可行的方法但我摆弄了几个小时但没有明白我没有提供
Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
通过 boto3 承担 IAM 用户角色时访问被拒绝

Issue 我有一个 IAM 用户和一个 IAM 角色我正在尝试将 IAM 用户配置为有权使用 STS 承担 IAM 角色我不确定为什么收到访问被拒绝错误 Details IAM 角色 arn aws iam 123456789 r
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

在 Linq 中添加对 XML 文档的样式表引用？

我创建了一个 XML 文档并希望获得对 XSLT 文件的引用到此 XML 生成 XElement xml new XElement ReportedOn from dl in EL DocumentLog ToList join o i
MVC 模型在 OnExecuted 操作过滤器中为 null ...或者设置模型的更优雅的方式？

我有一个 ActionFilter 它覆盖了 OnActionExecuted 方法在 POST 操作中 filterContext Controller ViewData Model 始终为 null 我确实发现下面的文章似乎在说它不应
OrderBy / ThenBy 循环 - C# 中的嵌套列表

我有一个嵌套列表 List
在集线器外部获取 SignalR 用户 (Hub.Context)

有没有办法在集线器之外获取当前的 signalR 请求用户我可以在集线器方法内部使用 Hub Context User 但是如果集线器方法调用任何其他底层 Wcf 服务调用附加的BehaviorExtensionElement 用于添加
Java Web 启动和安全性

刚刚有人向我指出我的博客中的 Java Web Start 应用程序例如我的按键绑定 http tips4java wordpress com 2008 10 10 key bindings 条目由于以下安全错误而不再起作用经过一些
如何将 UTC 日期时间转换为另一个时区？

我怎样才能转换这样的日期 2012 07 16 01 00 00 00 它在UTC 00 00时区到UTC 04 00时区确保正确处理夏令时 Use DateTime http php net manual en class datet
检测 vb.net 中的浏览器关闭事件

我的网页如下所示
如何使用 Trie 进行拼写检查

我有一个根据单词词典构建的特里树我想用它来进行拼写检查并建议字典中最接近的匹配项也许对于给定数量的编辑x 我想我会在目标单词和字典中的单词之间使用 levenshtein 距离但是有没有一种聪明的方法可以遍历 trie 而不需要对每
找不到 R.layout.activity_main

我试图使用一些在线教程来解决多种布局问题是只要只有一个 XML 文件我的程序就可以正确构建和编译当我添加多个 XML 文件时我收到错误消息指出该行的 activity main 无法解析或不是字段 setContentView R
无法从 GetProcessId(.. hWnd) (pInvoke) 中提取 processID

我使用以下方法 DllImport kernel32 dll SetLastError true static extern int GetProcessId IntPtr hWnd 尝试获取正在运行的进程的 processId 我拥有的唯
在应用商店上发布 PWA：google play 和 ios itunes

有没有办法在应用商店上发布 PWA 来发布应用谷歌播放和 iOS iTunes 不用用科尔多瓦制造一辆越野车这会带来大量的维护问题是的有办法将您的 PAW 发布到 Android 应用商店 TWAs可信 Web 活动是一种使用基于自
MySQL - 选择字符串的前 10 个字节

各位聪明的男士女士们大家好如何选择字符串的前 x 个字节用例我正在优化产品描述文本以上传到亚马逊亚马逊按 utf8 中的字节不是我之前所说的 latin1 而不是字符来测量字段长度另一方面 MySQL 似乎是基于字符进行操作的
两个 primefaces 日历组件验证

我有一个表格JSF 2我使用双字段来指定日期范围这样做的目的是不让用户选择第二个日期之前的第一个日期所以我想在发送表单之前执行验证使用p calendar成分我所做的是将验证器绑定到第二个日历输入以便在内部访问第一个组件并比较日期
测试 powermock 模拟客户端调用的 http 服务器超时

我需要为 connectTimeout 和 SocketTimeout 异常编写测试用例我使用 powerMock 创建模拟对象下面是我的代码但是我的模拟对象出现空指针异常任何帮助表示赞赏 package com util impo
如何使用 JSON 和 Perl (HTML::Mason) 通过 AJAX 创建动态网页？

我对处理 Javascript JSON 和 Peel 的方式感到有些困惑而且大多数示例都是 PHP 语言这对我没有帮助我有一个页面称为 main html 其中包含来自 MySQL 的数据并且可以选择按 id 删除行然后我让
如何使用可滑动选项卡实现 PageTransformer

在我的示例代码中我在 MainActivity java 中有三个可滑动选项卡即 Android IOS 和 WINDOWS 我使用滑动在选项卡之间切换现在我必须使用可滑动选项卡实现 PageTransformer 所以这里我需要您
Yii：如何用另一个模型数据填充选择输入？

我正在玩一个小应用程序以学习使用 Yii 我创建了一个小型网络应用程序其中包含 2 个模型表项目和任务一对多关系在模型类中正确配置我现在尝试自定义任务创建视图用建议可用项目列表的选择框替换文本输入字段我打开表单视图并尝试了
“分支”到底是什么意思？

长话短说据我所知术语分支 Git 术语可能指的是相关但不同的事物指向提交的非符号引用指针此类引用的名称例如 master 存储库提交 DAG 的子图由此类引用所指向的提交可到达的所有提交组成然而我发现这个术语显然指的是
并发 log4j

我有自己的日志引擎它将日志写入带有阻塞队列的单独线程上为了使用标准软件我正在考虑切换到 log4j 我不希望我的高并发软件因日志命令而变慢这些日志命令在调用命令时将所有内容写入磁盘 log4j 可以用作垃圾箱吗 Log4j 是大多
python 解码部分 utf-8 字节数组

我从不了解 UTF 8 规则的通道获取数据因此有时当 UTF 8 使用多个字节来编码一个字符并且我尝试将部分接收到的数据转换为文本时我在转换过程中遇到错误根据接口的性质没有任何结束的流我无法找出数据何时已满因此我需要处理部分

python 解码部分 utf-8 字节数组

python 解码部分 utf-8 字节数组 的相关文章

随机推荐

热门标签

python 解码部分 utf-8 字节数组的相关文章