是否存在 UTF-8 编码中未使用的字节？

2024-05-07

据我了解，UTF-8 是 ASCII 的超集，因此包括不用于表示可打印字符的控制字符。

我的问题是：是否有任何字节（256 个不同的字节）未被 UTF-8 编码使用？

我想知道你是否可以转换/编码UTF-8 文本转二进制。

这是我的思考过程：

我不知道 UTF-8 文本编码是如何工作的，也不知道它如何使用这么多字符（只知道它对非 ASCII (Latin-1??) 中的字符使用多个字节），但我知道 ASCII 文本在 UTF 中是有效的-8 所以控制字符（字节0-30） http://en.wikipedia.org/wiki/UTF-8#Codepage_layoutUTF-8 编码的使用方式没有不同，但它们同时不用于显示字符，对吗？

因此，在 256 个不同字节中，仅使用了约 230 个字节。对于 1000（二进制）长的 Unicode 文本，只有 1000^230 个不同的文本？正确的？

如果这是真的，你可以convert将其转换为小于 1000 字节的二进制数据。

沃尔夫拉姆阿尔法: 1000 字节的 unicode（假设 unicode 只使用 256 个不同字节中的 230 个）--> 496 字节 http://www.wolframalpha.com/input/?i=pow%28pow%281000%2C230%29%2C1%2F256%29

是的，可以设计出比 UTF-8 更节省空间的编码，但您必须权衡利弊。

例如，如果您的主要目标是（例如）ISO-8859-1，您可以将字符代码 0xA0-0xFF 映射到自身，并且仅使用 0x80-0x9F 来选择扩展映射，有点像 UTF-8 使用（几乎）所有 0x80-0xFF 来编码可以表示所有 Unicode > 0x80 的序列。当大部分文本不使用 0x80-0x9F 或 0x0100-0x1EFFFFFFFF 范围内的字符时，您将获得显着的优势，但如果情况并非如此，则会相应地损失。

或者您可能要求用户保留一个状态变量，该变量告诉您当前选择的字符范围，并使流中的每个字节充当该范围的索引。这有很大的缺点，但很久以前就是这样做的（例如 ISO-2022）。

Ken Thompson 和 Rob Pike 著名干预之前的原始 UTF-8 草案可能也比最终规范更节省空间，但他们引入的更改具有一些非常有吸引力的属性，用（我认为）一些空间效率换取了上下文的缺乏歧义。

我强烈建议您阅读关于 UTF-8 的维基百科文章 http://en.wikipedia.org/wiki/UTF-8了解设计需求——尽管您可能需要预留一个小时或更长时间来遵循脚注等，但只需几分钟即可掌握规范。（汤普森轶事目前是脚注#7。）

总而言之，除非您正在从事太空旅行或某些类似的效率密集型应用程序，否则失去 UTF-8 兼容性可能不值得您已经花费的时间，您应该立即停止。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Unicode

Binary

是否存在 UTF-8 编码中未使用的字节？的相关文章

如何使用 Unicode 十六进制值 (UTF-16) 在 Swift 中表达字符串

我想在 Swift 中使用十六进制值编写 Unicode 字符串我已阅读文档 https developer apple com library prerelease ios documentation Swift Conceptual
是否有一个看起来像“钥匙”图标的 Unicode 字形？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 Unicode 有一百万个类似图标的字形但它们并不总是很容易搜索因为我并不总是知道它们是什么样子是否有一个看起来像钥匙的 Unicode 字
计算数字的二进制表示形式中 1 的数量的最佳方法。 (MIPS)

我需要计算二进制数中 1 的数量比如说 5 所以 00001001 将是 2 或 n 2 我正在使用 MIPS 最好的方法来做到这一点最好的方法是count them 您可以检查是否设置了最低有效位 a1 by and用一个来代替它如
验证假名输入

我正在开发一个允许用户输入日语字符的应用程序我试图想出一种方法来确定用户的输入是否是日语假名平假名片假名或汉字应用程序中的某些字段不适合输入拉丁文文本我需要一种方法将某些字段限制为仅限汉字或仅限片假名等该项目使用UTF 8编码
使用 IE11 的工作程序使用 multipart/form-data 发送二进制数据

我正在尝试发送multipart form data来自 IE 的工作人员我已经使用 Chrome Firefox Safari 完成了此操作formData对象不支持IE 我需要一个手动的我发送的二进制数据是 crypto js 加
如何将 Unicode 字符转换为简单形式？ [复制]

这个问题在这里已经有答案了有没有一个Go库可以Sj str m作为输入和返回Sjostrom作为输出您可以使用golang org x text unicode norm来处理这个问题 package main import fmt i
Java正则表达式：为什么数字[0-9]、逗号等不是unicode？

class Test public static void main String args String regex p L System out println 0 matches regex 上面的代码打印 false 但我期待 tr
防止字符串中出现西里尔文/希腊文/中文 - C# 4.0

我们有一个支持希腊语西里尔语中文字符的系统使用 ASP NET C 4 0 但第三方系统似乎无法正常工作为了避免为此第三方系统输入数据时出现问题我想将文本字段限制为仅接受英语或重音字符但返回其他字符的验证错误我怎样才能做到这一
使用 pygame 显示 unicode 符号

我检查了其他答案但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
Unicode、正则表达式和 PyPy

我写了一个程序来添加有限统一码支持 https stackoverflow com q 1832893 520779到 Python 正则表达式虽然它在 CPython 2 5 2 上工作正常但在 PyPy 上不起作用 1 5 0
控制台应用程序中使用 Unicode 字符的 _tprintf

我正在从 Unicode 构建的控制台应用程序使用 C 和 Visual Studio 2008 执行这个简单的输出此代码旨在在 Windows 上运行 tprintf L Some sample string n 一切正常但是如果我
使用 WriteConsoleOutput 用 c# 编写 Unicode

我正在尝试使用WriteConsoleOutput来自 kernel32 dll 的函数但是我无法正确显示 unicode 字符它们总是显示为错误的字符我尝试过使用 Console OutputEncoding System Text
如何在 Linux 中重新添加 unicode 字节顺序标记？

我有一个相当大的 SQL 文件它以 FFFE 的字节顺序标记开头我使用 unicode 感知的 linux 分割工具将此文件分割成 100 000 行块但是当将这些传递回窗口时它确实not与第一个部分以外的任何部分一样只是它具有
将 pandas DataFrame 写入 unicode 中的 JSON

我正在尝试将包含 unicode 的 pandas DataFrame 写入 json 但是内置的 to json函数对字符进行转义我该如何解决 Example import pandas as pd df pd DataFrame a
API 调用时出现 UnicodeEncodeError (json)

我正在尝试打印此 API 调用的结果但收到 UnicodeEncodeError 可能是超级菜鸟问题但非常感谢任何帮助 import http client import json api key hidden connection h
用 unicode 字符删除纯文本？

是否可以删除代码注释中不需要的修改过的单词由于开发人员仍然在黑暗时代更简单的纯文本时代进行编码其中文本无法使用隐藏标识符进行格式化因此实现这一目标的唯一方法是使用 Unicode 字符由于某些unicode字符可以扩展 y o n
Python 删除额外的特殊 unicode 字符

我正在 python 中处理一些文本它内部已经采用 unicode 格式但我想删除一些特殊字符并用更标准的版本替换它们我目前有一条看起来像这样的线路但它变得越来越复杂我发现它最终会带来更多麻烦 tmp infile lower r
带有二进制数据的 Bash echo 命令？

有人可以解释一下为什么这个脚本有时只返回十六进制字符串表示形式的 15 个字节吗 for i in 1 10 do API IV openssl rand 16 API IV HEX echo n API IV od vt x1 w16 a
即使我使用 SetWindowTextW()，Unicode 文本在编辑框中显示为问号

我遇到了 unicode 文件名在编辑框中显示为问号的问题当我将 unicode 字符例如阿拉伯语或泰语粘贴到编辑框中时它们会正确显示但在运行此代码后它们会变成问号怎么会 WCHAR buf 100 GetWindowText

随机推荐

检测 UITextField 的焦点变化

我正在尝试设置当键盘隐藏并出现在文本字段中时视图向上移动的动画并且它工作得很好但是当焦点从一个文本字段移动到另一个文本字段时它不起作用因为键盘已经显示了在 viewDidLoad 中我注册了以下内容 NSNotificationC
Electron Autoupdater 与私有 GitHub 存储库？

我已经使用 PRIVATE GitHub Repository 作为发布电子应用程序的提供者实现了 Electron AutoUpdater 现在我可以使用 GitHub 存储库发布它但是每当 AutoUpdater 尝试从 GitHu
HTML5 Canvas 避免任何子像素渲染

As seen here https stackoverflow com questions 7017998 html 5 canvas avoid fill behaviour on overlap我在画布中的亚像素精度方面遇到了一些问题
git-http-backend 与 AuthzUnixGroup 无法正常工作

我正在尝试在 CentOS 6 机器上的 Apache 2 2 上设置一个 git 存储库并安装了 git 我尝试过许多不同的方向但我却不知所措我目前的情况包括能够clone正常但完全无法推动似乎我无法使身份验证位正常工作因为我
SQL状态[99999]；错误代码[17004]；无效的列类型：1111 使用 Spring SimpleJdbcCall

大家好我正在使用 spring 简单的 JDBC 模板来调用 oracle 过程下面是我的代码步骤 create or replace PROCEDURE get all system users pi client code IN
寻找下一个开放端口

有没有什么办法使用基本的 Unix 命令找到下一个未使用的端口号从端口 4444 开始向上我通过 ssh 通过 openssh 进入 Windows XP 计算机运行 Cygwin 工具并使用 bash shell 谢谢戴夫尝
django获取FileField的绝对路径

我试图在模板上调用 FileField 时检索绝对路径以 http 开头我怎样才能做到这一点 ie fl uploadedfile gt 返回相对路径如 media uploads 当我想要的时候This http www blabl
无法启动进程启动失败：等待应用程序启动超时

我正在尝试在设备上启动我的应用程序它在模拟器上成功启动项目清单我用的是7 1 SDK Xcode 5 该设备是 7 1 iPhone 4S 我努力了 Clean 清理构建文件夹删除应用程序断开重新连接设备启动装置重新启动 X
如何让所有行数据去掉相似的数据并相乘浮点数

如何分离所有列 df df hlogUs dB hlogDs dB df hlogUs dB hlogDs dB 0 109 3 4 110 3 4 111 3 4 112 3 5 113 3 5 1 5 2 5 6 2 5 7 2 1 8
无法从index.js解析模块@babel/runtime/helpers/interopRequireDefault

我刚刚克隆了这个存储库反应本机纸 https github com callstack react native paper 但是当我在根目录上运行时 yarn install 我收到以下警告 D react native paper m
如何为 Html.BuildUrlFromExpression 调用指定默认区域

我有这样的问题链接文本 https stackoverflow com questions 2345293 how to specify default area without adding area to every actionlin
未捕获的错误：调用未定义的函数 mysql_connect() [重复]

这个问题在这里已经有答案了未捕获错误调用 C xampp htdocs phoenixproject register php 9 中未定义的函数 mysql connect 堆栈跟踪 0 main 在第 9 行 C xampp htd
正则表达式限制 url 文件夹的通配符

我想设置一个与 URL 的某些模式匹配的正则表达式 http www domain com folder1 folder2 anything anything index html 这匹配并完成工作 http www domain com
带有占位符文本的文本框，该文本会逐字符消失

我正在寻找一种方法来构造带有日期字段占位符文本的文本框占位符文本将为 xx xx xxxx 并在用户键入时逐个字符消失留下斜杠我遇到了以下两个问题它们似乎解决了使文本立即消失的问题 HTML CSS 制作一个文本框其中的文本显示为
Android：Enter 或 Tab 键仍然使用 jetpack compose 在密码输入字段中输入值

当我输入或 Tab 键时仍然使用 jetpack compose 在密码输入字段中输入值下面是我的代码片段 val focusRequester FocusRequester createRefs TextField value tex
Python 3.8 的点子

如何安装适用于 Python 3 8 的 Pip 我将 3 8 设置为我的默认 Python 版本 sudo apt install python3 8 pip gives 无法找到包 python3 8 pip 和跑步 python3 8
Ionic 3 如何确保在加载视图之前获取数据库数据

我正在使用基于令牌的身份验证并且令牌已保存在数据库中当应用程序启动时我需要从数据库获取令牌并使其可用然后再进行 API 调用最好的方法是什么在组件中 ngOnit storage get token then val gt Ma
模拟器中缺少“Web Inspector”设置

在模拟器上执行重置所有内容和设置后在 safari 中启用 Web 检查器的设置消失了我不知道如何恢复它有谁知道如何恢复它并再次在模拟器中远程调试网页似乎这个选项在模拟设备中不可用提示如果您想从桌面 Safari 连接
相当于 Oracle 的 SQL*Plus 中 MySQL 的 \G

在 Oracle 的 SQL Plus 中 SELECT 的结果以表格方式显示有没有办法以键值方式显示一行例如MySQL的 G option http slaptijack com software enabling vertical
是否存在 UTF-8 编码中未使用的字节？

据我了解 UTF 8 是 ASCII 的超集因此包括不用于表示可打印字符的控制字符我的问题是是否有任何字节 256 个不同的字节未被 UTF 8 编码使用我想知道你是否可以转换编码UTF 8 文本转二进制这是我的思考过程我不

是否存在 UTF-8 编码中未使用的字节？

是否存在 UTF-8 编码中未使用的字节？ 的相关文章

随机推荐

热门标签

是否存在 UTF-8 编码中未使用的字节？的相关文章