实际使用中最常见的非 BMP Unicode 字符有哪些? [关闭]

2023-12-03

根据您的经验,到目前为止,哪些 Unicode 字符、代码点、BMP(基本多语言平面)之外的范围是最常见的?这些是需要 UTF-8 中的 4 个字节或 UTF-16 中的代理项。

我本以为答案是名称中使用的中文和日文字符,但不包含在最广泛的 CJK 多字节字符集中,但在我大部分工作的项目(英语维基词典)中,我们发现哥特字母到目前为止更为常见。

UPDATE

我编写了几个软件工具来扫描整个维基百科中的非 BMP 字符,令我惊讶的是,即使在日语维基百科中,哥特字母也是最常见的。中文维基百科也是如此,但其中也有许多汉字被使用了50或70次,包括“

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

实际使用中最常见的非 BMP Unicode 字符有哪些? [关闭] 的相关文章

  • 如何打印/存储非 ASCII 字符(unicode?)

    我正在阅读大量的音乐家档案 其中许多艺术家的名字中都有奇怪的字符 因为他们可能来自德国或其他一些具有非 ASCII 字符的国家 我希望能够将这些音乐家的名字存储在列表中并将它们打印到控制台 如何打印从文本文件读入的带有奇怪字符的字符串 让我
  • 如何替换 NSString 中的 \xA0 字符

    以下代码不起作用 NSString importText textView string stringByReplacingOccurrencesOfString xA0 xA0 withString 编译器声明 由于输入字节不属于输入代码
  • 字符串中的换行符未写入文件

    我正在尝试编写一个程序来操作从文件中读取的 unicode 字符串 我想到了两种方法 一种方法是读取包含换行符的整个文件 执行几个正则表达式替换 然后将其写回另一个文件 另一种方法是读取包含换行符的整个文件 执行几个正则表达式替换 然后将其
  • Windows Unicode C++ 流输出失败

    我目前正在编写一个应用程序 它要求我在任意窗口上调用 GetWindowText 并将该数据存储到文件中以供以后处理 长话短说 我注意到我的工具在 战地 3 上失败了 我将问题范围缩小到窗口标题中的以下字符 http www filefor
  • 如何使用 Python 将具有非英语字符的变量打印到命令提示符

    我有一个 python 程序 可以生成泰米尔语字符串 例如 字符串可以是 我可以在打开文件时使用 utf 8 将其完全按照此处显示的方式写入文本文件 但是 当我使用 print 函数将相同的字符串变量写入 stdout 时 它会显示 3 个
  • 是否存在 UTF-8 编码中未使用的字节?

    据我了解 UTF 8 是 ASCII 的超集 因此包括不用于表示可打印字符的控制字符 我的问题是 是否有任何字节 256 个不同的字节 未被 UTF 8 编码使用 我想知道你是否可以转换 编码UTF 8 文本转二进制 这是我的思考过程 我不
  • MySQL 不将 ı 视为 i?

    我在 MySQL 5 7 27 中有一个用户表utf8mb4 unicode ci整理 不幸的是 没有像 i 那样进行线程化 以下查询将找不到Y lmaz select id from users where name Yilmaz 我对其
  • 解析 HTTP 标头值:引用、RFC 5987、MIME 等

    让我困惑的是 HTTP 标头的解码values 示例标头 Some Header quoted string utf 8 en Weirdness 罐头value s被引用 a 的编码怎么样 本身 是 有效的引号字符 分号有什么意义 HTT
  • 打印时不会出现日文字符

    我正在用 python 打印 Unicode 字符 到目前为止 除了日语字符之外 我使用过的所有符号都有效 当我打印字符时 它只显示 框中的问号 符号 我怎样才能解决这个问题 当我第一次回答这个问题时 我认为这可能是 python 的问题
  • ASCIIEncoding.ASCII.GetBytes() 返回意外值

    这段 C 代码 string s u00C0 byte bytes ASCIIEncoding ASCII GetBytes s Trace WriteLine BitConverter ToString bytes 产生以下输出 3F 为
  • Windows 上的 wchar_t 和 char16_t 是一样的吗?

    我有一个实例std u16string 我可以通过它吗c str 到一个 Win32 API 它期望LPCWSTR 没有任何类型的转换 例如 我可以安全地这样做吗 auto u16s std u16string u Hello SetWin
  • 在Python中通过sys.stdout写入unicode字符串

    暂时假设一个人无法使用print 从而享受自动编码检测的好处 所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
  • 如何在 Java/Eclipse 中使用特殊字符

    如何在 Java Eclipse 中使用 显示 或 等字符 当我尝试直接使用它们时 例如在源代码中 Eclipse无法保存文件 我能做些什么 编辑 如何找到 unicode 转义序列 问题是您使用的字符无法以文件设置的编码 Cp1252 表
  • codePointAt 和 charCodeAt 之间的区别

    有什么区别String prototype codePointAt and String prototype charCodeAt 在 JavaScript 中 A codePointAt 65 A charCodeAt 65 从 MDN
  • SQL 查询Where Column = '' 返回表情符号字符

    好的 我有一个包含三列的表 Id Key Value 我想删除所有行Value是空的 因此 我在删除之前编写了要选择的查询 Select from Imaging ImageTag where Value 到目前为止一切都很标准 现在这是奇
  • libxml2 xmlChar * 到 std::wstring

    libxml2似乎将所有字符串存储在 UTF 8 中 如xmlChar xmlChar This is a basic byte in an UTF 8 encoded string It s unsigned allowing to pi
  • raku 可以避免这个 Malformed UTF-8 错误吗?

    当我运行这个 raku 脚本时 my proc run tree du out proc out slurp close say 我在 MacOS 上遇到此错误 Malformed UTF 8 near bytes ef b9 5c 而不是
  • 如何解决 PDFBox 没有 unicode 映射错误?

    我有一个现有的 PDF 文件 我想使用 python 脚本将其转换为 Excel 文件 目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
  • 如何在按键时识别 unicode 键?

    我的应用程序使用 unicode 字符 并且我有几个文本字段 我想限制用户输入特殊字符 例如 begin if not Key in a z A Z 0 9 13 8 then Key 0 if Key 13 then bOk Click
  • 使用 pygame 显示 unicode 符号

    我检查了其他答案 但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font

随机推荐

  • pygame中.quit和.QUIT有什么区别

    我只是想知道之间的区别 quit and QUIT在 pygame 我已经测试了两者 但我仍然不明白它们是如何工作的 QUIT是事件类型的枚举常量 参见event模块 quit 事件在 pygame 窗口关闭时发生 for event in
  • Google App Engine python 入站邮件 LookupError:未知编码

    我按照示例使用 标准 入站邮件处理程序接收发送到我的 Google App Engine 应用程序的入站电子邮件在文档中 似乎发送到应用程序的某封电子邮件 不是由我发送 导致电子邮件 api 抛出 LookupError 未知编码异常 请参
  • 使用 jQuery 在浏览器调整大小时更改图像 src

    我有两张不同尺寸的图像 一张适用于小于 759px 的屏幕 另一张适用于大于 759px 的屏幕 我已经设法在文档加载时根据窗口宽度更改图像的来源 但我真的希望能够在调整浏览器大小时执行此操作 但在我的一生中 我无法让它执行此操作 它似乎只
  • 图像处理以去除线条

    我试图最终得到一张只有文本的图像 我的代码会将此图像视为灰度 并从中删除所有长线以及除文本 符号 测量值之外的所有内容 Is this something that can be accomplished using image proce
  • 如何从Oracle SQL中的字符开头删除定义的值?

    我在 Oracle SQL 中有如下表 col1 ABC 1234 ABC 55674 ABC 11 所以我在 col1 中有 总是 ABC 在每个值的开头 ABC 后不同长度的值 我需要如下结果 所以我需要删除 ABC 从每个值的开头 c
  • Pyparsing:获取结果名称中的标记位置

    我正在开发一个使用 pyparsing 解析命令行的程序 它使用 readline 库来提供命令编辑和完成 在应用程序的上下文中 有效的命令行是path 可选 然后是命令名称 可选 和一些参数 也是可选的 为了提供命令完成 应用程序解析命令
  • htmlspecialchars 和 mysql_real_escape_string 是否可以保护我的 PHP 代码免受注入?

    今天早些时候有人问了一个关于Web 应用程序中的输入验证策略 在撰写本文时 最佳答案建议PHP只是使用htmlspecialchars and mysql real escape string 我的问题是 这总是足够的吗 还有更多我们应该知
  • 如何从数组中删除所有数字?

    我正在尝试从数组中删除所有数字 该循环完全按照我想要的方式工作 但 splice 方法仍然由于某种原因跳过一些元素 let arr 1 2 3 4 5 notanumber 6 for let element of arr let inde
  • 使用 python os.rename 时出现错误 [183]

    这是我第一次使用 python 我一直遇到错误 183 我创建的脚本在网络中搜索所有 py 文件并将它们复制到我的备份驱动器 请不要嘲笑我的剧本 因为这是我的第一个剧本 我在脚本中做错了什么有什么线索吗 import os import s
  • 防止 ansible 在通过 with_items 传递时解析字符串

    我正在尝试使用with items指定要传递给自定义 ansible 模块的键 值对列表 当键或值字符串具有类似列表的格式时 就会出现问题 例如 a b c d 在这种情况下with items大概将字符串转换为列表并对我的配置造成严重破坏
  • 为什么不从 Enum> 扩展

    我偶然发现了以下问题 我无法从 Java 1 5 java lang 包 中定义的此类扩展和实现 public abstract class Enum
  • Pandas 到 timedelta 只有小时、分钟和秒

    在我的脚本中 我提取了一个 Excel 其中名为 Time 的列是 dtype 对象 该列中有一个像 14 00 00 这样的小时 我想将该列转换为 datetime 但是当我这样做时 df Time pandas to datetime
  • Jfreechart注释消失

    我用 JFreechart 绘制了一条曲线 然后用户可以通过拖动鼠标来绘制范围 我使用 AbstractChartAnnotation 绘制这些图来绘制填充的 Path2D 到目前为止一切都很好 一切都与曲线完美对齐 当某个区域已被注释时
  • Django user.is_authenticated 在某些地方有效,在其他地方无效

    在我的模板中 我有以下内容 ul class tabbed if user is authenticated li a href My Account a li li a href Log Out a li else li a href L
  • 将变量从 php 文件传递​​到 anther

    如何将变量从 php 文件传递 到另一个文件 而它不是 html 输入 只是我有一个引用另一个文件的链接 并且我想将变量或值传递给它 Example 文件1 php 文件2 php Use sessions存储需要在多个请求中保留的任何小值
  • 如何使用 cin 实现单行整数类型命令行输入验证?

    我有一个程序要求用户输入 0 2 范围内的整数 我使用以下链接作为指南 使用 cin C 进行良好的输入验证循环 但是 当用户按 Enter 键而不输入数据时 光标只会转到命令提示符中的下一行 而我更希望它提示用户输入有效数字 在这种情况下
  • 现有连接被远程主机强制关闭

    我正在使用一个商业应用程序 该应用程序抛出 SocketException 消息 现有连接被远程主机强制关闭 这种情况发生在客户端和服务器之间的套接字连接上 连接状态良好 并且正在传输大量数据 但随后突然断开连接 有人见过这个吗 原因可能是
  • 涉及 fork() 的 C 程序输出的解释

    运行这个程序会打印 forked 7次 谁能解释一下如何 分叉 被打印了7次 include
  • 为什么称为运算符重载?

    如果下面的课 Foo 被定义为 据说它超载一元与符号 操作员 class Foo public Foo operator return nullptr 我认为在这种情况下 不管你可以通过以下方式获取这样一个对象的地址 std address
  • 实际使用中最常见的非 BMP Unicode 字符有哪些? [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 根据您的经验 到目前为止 哪些 Unicode 字符 代码点 BMP 基本多语言平面 之外的范围是最常见的 这些是需要 UTF 8 中的 4 个字节或 UTF 16 中的代理项
Powered by Hwhale