0x9d 在什么 8 位字符集中有意义?

2023-11-21

英语的 8 位类似 ASCII 的字符集是什么0x9d有意义吗? 我正在清理一些旧的数据文件,偶尔会发现0x9d在其他 ASCII 文本中。 (不,这不是 UTF-8。)

它在 Windows-1252 中无效。 Python“latin-1”编解码器将其转换为 Unicode 0x9D,即《操作系统命令》。这没什么意义。在 Unicode 中,您会得到一个带有 [009d] 的框。 (在 Python 中,您可以将任何内容转换为 Latin-1 而不会引发错误,但这并不意味着这样做是有意义的。)

示例,使用 Python 类型转义,来自我正在清理的混乱数据库,该数据库组合了来自多个来源的文本:

Guitar Pro, JamPlay, RedBana\\\'s Audition,\x9d Doppleganger\x99s The Lounge\x9d or Heatwave Interactive\x99s Platinum Life Country,\\"

for example \\"I\\\'ve seen the bull run in Pamplona, Spain\x9d.\\" Everything

Netwise Depot is  a \\"One Stop Web Shop\\"\x9d that provides sustainable \\"green\\"\x9d living

are looking for a \\"Do It for Me\\"\x9d solution

从上下文来看,我怀疑是 ™ 或 ®。但是什么 8 位代码有这些呢?


这是一个完全疯狂的假设:

一些之前处理此数据的(确实损坏的)系统尝试将每个字符写入 UTF-8,但实际上只写入每个序列的最后一个字节(也许它在某处有一个奇怪的单字节长缓冲区)。或者,过去它是 UTF-8 格式的,但有人以不同的编码查看它,进行了搜索和替换以删除字节 0xE2 0x80,因为它们显然“不属于”并且没有意识到剩余的“ “特殊角色”也不是他们想要的。

当然,ASCII 会被传递,因为它的 UTF-8 编码将是一个字节长。

“右单引号”(U+2019)以 UTF-8 编码,字节为 0xE2 0x80 0x99。你所拥有的地方\x99s这就是让我走上这条路的原因,因为在流行的文字处理软件中,s 之前的撇号通常会被翻译为右弯引号。如果仅保存字符的最后一个字节,则那里只会有 0x99。

“右双引号”(U+201D)以 UTF-8 编码,字节为 0xE2 0x80 0x9D。文本中的 0x9D 通常位于双引号字符串的末尾。而且,它通常就在常规直道旁边"双引号。我想知道是否有人尝试对数据进行某种事先清理,并设法放回结束引用,但将“奇怪的”0x9D 留在了那里。

正如我所说,这是一个疯狂的假设,但如果这是来自各种旧系统的数据的集合,那么很难知道它到底发生了什么。 UTF-8 的最后一个字节只是我能找到的最接近的“正常”英语编码,它在英语文本中具有合理的内容,并且包含您正在寻找的字节。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

0x9d 在什么 8 位字符集中有意义? 的相关文章

随机推荐

  • 如何在共享主机环境中安装phpMailer?

    如何安装phpMailer在共享托管环境中 我需要用它来验证电子邮件和更改用户的密码 你可以在这里下载 https github com PHPMailer PHPMailer 将文件夹上传到您的服务器并包含以下行的主文件 之后 您将需要一
  • 在ubuntu中安装octave包

    任何人都可以帮助我解决这个错误吗 octave 4 gt pkg install signal 1 2 0 tar gz error the following dependencies where unsatisfied signal n
  • ifstream::read 不附加 '\0'

    ifstream read只是读n字节放入缓冲区 但不追加 0 在缓冲区的末尾 对吧 那么当我使用缓冲区时 它如何知道缓冲区的结尾呢 我应该手动附加一个 0 在缓冲区的末尾 The ifstream用于读取文件 二进制文件或文本 处理二进制
  • 在 SimpleXML for PHP 中删除具有特定属性的子项

    我有几个具有不同属性的相同元素 我正在使用 SimpleXML 访问这些元素
  • 运行时 Autofac 绑定

    我目前使用 Autofac 进行简单的构造函数注入 没有任何问题 然而我想知道的是如何在运行时解决依赖关系 下面的示例显示了导出文档的多种方式 通过简单的构造函数注入 IExport 的具体实现在运行时得到解决 但是 需要做的是解析下拉列表
  • sklearn:如何加速矢量化器(例如Tfidfvectorizer)

    在彻底分析我的程序之后 我已经能够确定它被矢量化器减慢了 我正在处理文本数据 两行简单的 tfidf 一元向量化占用了代码执行总时间的 99 2 这是一个可运行的示例 这会将 3mb 的训练文件下载到您的磁盘 省略 urllib 部分以在您
  • 将参数从jsp传递到Spring Controller方法

    我正在使用 Hibernate 的 Spring MVC 应用程序中工作 在 JSP 页面中 我有一个函数列出数据库中存储的值 当前是所有值 我写了一个方法 其中列表仅限于 JSP 文件中传递的 ID 我的 HQL 查询工作正常 所以我知道
  • 值reduceByKey不是org.apache.spark.rdd.RDD的成员

    很伤心 我的spark版本是2 1 1 Scala版本是2 11 import org apache spark SparkContext import com mufu wcsa component dimension Dimension
  • jQuery 滚动到页面底部

    当您单击某个链接时 我使用以下内容滚动到页面顶部 myLinkToTop click function html body animate scrollTop 0 slow return false 我想创建另一个滚动到页面底部的链接 以下
  • 如何选择 maven-gpg-plugin 用于签署工件的 GnuPG 密钥?

    我正在使用 maven gpg plugin 来签署 Maven 工件 这工作正常 但我的 GnuPG 密钥环中有几个密钥 并且想要使用与 GnuPG 选择的密钥不同的密钥 如果有多个键 GnuPG 如何选择 默认 键 是否可以指定在 ma
  • Play 2.0 框架,使用带有经过身份验证的请求的 BodyParser

    我希望能够在经过身份验证的请求上使用 BodyParser 但如果我的身份验证像 ZenTasks 示例那样设置 我很难弄清楚如何做到这一点 我的验证方法 def IsAuthenticated f gt String gt Request
  • 我可以将 Eclipse 设置为忽略“未处理的异常类型”吗

    是否有可能让 Eclipse 忽略错误 未处理的异常类型 在我的具体情况下 原因是我已经检查过该文件是否存在 因此我认为没有理由放入 try catch 语句 file new File filePath if file exists Fi
  • Ant 替换属性文件中的令牌

    我想用 Ant 替换源文件中的标记 some test foo other text 令牌包含在属性文件中 例如 foo 1 实际上 如果源文件中的标记类似于 foo 或 foo 那么这很容易 但我无法替换整个标记 foo 几年前我成功了
  • 如何在python中查找文件系统类型

    我正在 python 中寻找一种方法来找出给定路径使用哪种类型的文件系统 我想以跨平台的方式做到这一点 在linux上我可以抓取输出df T但这不适用于 OSX 或 Windows 请注意 不同的平台实际上是不同的 Use lsvfs在 M
  • 我可以将 MySQL 时间戳与日期时间列进行比较吗?是不是很糟糕?

    因此 我有一个表 其中列 ABC 是时间戳 BCD 是日期时间 如果我这样做 SELECT FROM myTable WHERE ABC gt BCD 是不是很糟糕 会影响性能吗 它们在性能方面如何比较 是的 您可以比较datetime w
  • ng-class 不会触发自定义指令

    我目前正在开发一个滑动菜单指令对于 AngularJS javascript 由三种类型的指令组成 每种类型的滑动菜单的指令 为简洁起见 我只包含左侧滑动菜单 一个用于屏幕其余部分的包装器指令 asm包装器 和一个控制按钮指令 汇编控制 目
  • android 是否有向 Google keep 添加数据的意图

    android 是否有向其中添加数据的意图谷歌保留 可以通过新的 Intent Intent ACTION SEND 实现 有一种技术可以通过编程方式选择适当的应用程序 而不是显示可能性 测试
  • Grails GGTS IDE GrailsProcessDiedException:Grails 进程终止

    我在 GGTS IDE 上遇到了以下奇怪的异常 Command terminated with an exception org grails ide eclipse longrunning client GrailsProcessDied
  • C++20 概念:元素可迭代概念

    我正在尝试创造一个概念ElementIterable它可以确定类型是否是嵌套范围 例如 中的元素std vector
  • 0x9d 在什么 8 位字符集中有意义?

    英语的 8 位类似 ASCII 的字符集是什么0x9d有意义吗 我正在清理一些旧的数据文件 偶尔会发现0x9d在其他 ASCII 文本中 不 这不是 UTF 8 它在 Windows 1252 中无效 Python latin 1 编解码器