是否可以恢复损坏的“interned”字节对象

2024-02-04

众所周知，小bytes-对象由 CPython 自动“驻留”（类似于intern https://docs.python.org/3/library/sys.html#sys.intern- 字符串函数）。更正： As 解释了 https://stackoverflow.com/a/50709066/5769463通过@abarnert，它更像是整数池而不是内部字符串。

在被“实验性”第三方库损坏后，是否可以恢复驻留的字节对象，或者是重新启动内核的唯一方法？

概念证明可以使用 Cython 功能来完成（Cython>=0.28）：

%%cython
def do_bad_things():
   cdef bytes b=b'a'
   cdef const unsigned char[:] safe=b  
   cdef char *unsafe=<char *> &safe[0]   #who needs const and type-safety anyway?
   unsafe[0]=98                          #replace through `b`

或按照@jfs 的建议ctypes:

import ctypes
import sys
def do_bad_things():
    b = b'a'; 
    (ctypes.c_ubyte * sys.getsizeof(b)).from_address(id(b))[-2] = 98

显然，通过滥用 C 功能，do_bad_things更改不可变（或者 CPython 认为）对象b'a' to b'b'并且因为这个bytes-对象被拘留，我们可以看到之后发生不好的事情：

>>> do_bad_things() #b'a' means now b'b'
>>> b'a'==b'b'  #wait for a surprise  
True
>>> print(b'a') #another one
b'b'

可以恢复/清除字节对象池，以便b'a' means b'a'再次？

一点旁注：似乎并不是每个bytes-创建过程正在使用该池。例如：

>>> do_bad_things()
>>> print(b'a')
b'b'
>>> print((97).to_bytes(1, byteorder='little')) #ord('a')=97
b'a'

Python 3 没有实习生bytes对象的方式str。相反，它像使用它一样保留它们的静态数组int.

这在幕后是非常不同的。不利的一面是，这意味着没有可操作的表（带有 API）。从好的方面来说，这意味着如果你能找到静态数组，你就可以修复它，就像处理整数一样，因为数组索引和字符串的字符值应该是相同的。

如果你看进去bytesobject.c https://github.com/python/cpython/blob/master/Objects/bytesobject.c#L24，数组在顶部声明：

static PyBytesObject *characters[UCHAR_MAX + 1];

……然后，例如，在PyBytes_FromStringAndSize:

if (size == 1 && str != NULL &&
    (op = characters[*str & UCHAR_MAX]) != NULL)
{
#ifdef COUNT_ALLOCS
    one_strings++;
#endif
    Py_INCREF(op);
    return (PyObject *)op;
}

请注意，该数组是static，因此无法从该文件外部访问它，并且它仍在对对象进行重新计数，因此调用者（甚至是解释器中的内部内容，更不用说 C API 扩展）无法判断发生了任何特殊情况。

因此，没有“正确”的方法来清理它。

但如果你想变得黑客……

如果您有对任何单字符字节的引用，并且知道它应该是哪个字符，则可以到达数组的开头，然后清理整个内容。

除非你搞砸的比你想象的还要多，否则你可以构建一个单字符bytes并减去它原来的字符supposed to be. PyBytes_FromStringAndSize("a", 1)将返回的对象是supposed to be 'a'，即使碰巧发生actually hold 'b'。我们怎么知道这一点？因为这正是您要解决的问题。

实际上，可能有一些方法可以让事情变得更糟……这一切看起来都不太可能，但为了安全起见，让我们使用一个你不太可能破坏的角色a, like \x80:

PyBytesObject *byte80 = (PyBytesObject *)PyBytes_FromStringAndSize("\x80", 1);
PyBytesObject *characters = byte80 - 0x80;

The only other caveat is that if you try to do this from Python with ctypes instead of from C code, it would require some extra care,¹ but since you're not using ctypes, let's not worry about that.

所以，现在我们有一个指向characters，我们可以步行。我们不能只是删除对象来“取消”它们，因为这会影响任何引用它们的人，并可能导致段错误。但我们不必这样做。表中的任何对象，我们都知道它应该是什么——characters[i]应该是一个字符bytes谁的一个字符是i。因此，只需将其设置回原样，并使用如下循环：

for (size_t char i=0; i!=UCHAR_MAX; i++) {
    if (characters[i]) {
        // do the same hacky stuff you did to break the string in the first place
    }
}

这里的所有都是它的。

Well, except for compilation.²

幸运的是，在交互式解释器中，每个完整的顶级语句都是其自己的编译单元，因此......您应该可以接受运行修复程序后键入的任何新行。

但是您导入的模块必须在字符串损坏的情况下进行编译？你可能搞砸了它的常数。除了强制重新编译和重新导入每个模块之外，我想不出一个好方法来清理这个问题。

_{1. The compiler might turn your b'\x80' argument into the wrong thing before it even gets to the C call. And you'd be surprised at all the places you think you're passing around a c_char_p and it's actually getting magically converted to and from bytes. Probably better to use a POINTER(c_uint8).}

_{2. If you compiled some code with b'a' in it, the consts array should have a reference to b'a', which will get fixed. But, since bytes are known immutable to the compiler, if it knows that b'a' == b'b', it may actually store the pointer to the b'b' singleton instead, for the same reason that 123456 is 123456 is true, in which case fixing b'a' may not actually solve the problem.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以恢复损坏的“interned”字节对象的相关文章

通过 SSH 的 Pygame 不注册击键（Raspberry Pi 3）

所以我得到了 raspi 3 和简单的 8x8 LED 矩阵在玩了一些之后我决定用 pygame 的事件制作一个简单的蛇游戏显示在该矩阵上我之前没有 pygame 的经验除了 LED 矩阵之外没有连接任何屏幕显示器所以最初的
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
SQLAlchemy - 如何使用 SQLAlchemy 做出“django 选择”？

在 Django 中我们可以使用非常简单的选择例如 GENDER CHOICES M Male F Female class Foo models Model gender models CharField max length 1
用于 OAuth 身份验证的 WSGI 中间件

我使用构建了一个非常小的网络应用程序Flask http flask pocoo org 现在我想向网站添加非常基本的身份验证我不需要授权由于 Flask 不支持开箱即用的 auth auth 我想插入 WSGI 中间件来完成这项工作
Tornado：DummyFuture 不支持结果阻塞

我试图获得一个非常简单的初始服务器它可以异步获取 url 来工作但它会抛出 Exception DummyFuture does not support blocking for results 有这个SO https stacko
仅获取图像中的外部轮廓

我有这段代码可以在图像中绘制轮廓但我只需要外部轮廓 import cv2 import numpy as np camino C Users Usuario Documents Deteccion de Objetos 123 jpg
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
Tweepy 流式传输错误

我正在尝试使用 tweepy 和 textblob 分析推文的情绪我执行了 pip install tweepy 并且安装成功但出现以下错误错误信息文件 C Users joshey Desktop sent py 第 2 行位于
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

我遇到了 Scrapy 行为异常的问题几个月前我编写了一个简单的函数它返回给定 xpath 处的项目列表 def get html response path sel Selector text response page source
使 flake8 区分未定义函数和星型导入

我有一个相当大的项目我试图在发布之前清理它但是当我运行 flake8 时我得到了大量的 F405
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce

随机推荐

Sails js 使用 Web 服务器外部的模型

我想创建一个 cli 来创建管理员用户我在 api models User js 中设置了用户模型并在气候中 var User program program require commander User require api mod
如何强制图像完全填充其表格单元格

我已经阅读了许多论坛并尝试了那里的解决方案但没有一个有效我的所有图像之间仍然有一个小间隙这是代码 table tr td h2 Curling h2 td td img src images curlingMid jpg width
如何在android studio中打开主题编辑器

我的studio版本是1 3RC3 我在 MainMenu Tool Android 中找不到主题编辑器应该是这样的您可以在 Android Studio 中找到主题编辑器工具 gt Android gt 主题编辑器 Android
带有多个“server_name”条目的 nginx“server”指令：始终将第一个传递给 PHP 的 $_SERVER['SERVER_NAME']

我的配置文件有一个server以开头的指令块 server server name www example1 com www example2 com www example3 com 为了允许使用不同的域名访问该站点然而 PHP 的
在 Matlab 中将 Wigner-Ville 分布的值缩放到实际范围

我通过使用 tfrwv m 中的函数来运行时频工具箱 http tftb nongnu org B T F tfrwv data 1 length data length data 1 B 1 130 0 remove the duplic
为什么使用 i32 的不可变引用

在 Rust 的生命周期一章中有一个例子 struct Foo lt a gt x a i32 fn main let y 5 this is the same as let y 5 let y y let f Foo x y prin
有人上传视频时的通知

所以我想弄清楚如何制作一个程序来查看 YouTube 帐户是否上传了新视频我正在考虑让一台虚拟 PC 在 PHP 中执行此操作并每 2 分钟自动刷新页面如果标题发生更改则会将数据保存在数据库中并发送电子邮件如果有人有解决方案或更好
为什么这段代码会抛出java.lang.NullPointerException？

我找到了一个源代码并将其添加到我的框架中只是为了测试它使用 Java2D 但它有一个例外我不明白为什么我的课 package ClientGUI import java awt Dimension import java awt G
Git diff 提交范围中的双点“..”和三点“...”有什么区别？

以下命令有什么区别 git diff foo master a git diff foo master b git diff foo master c 差异手册 http jk gs git diff html examples谈论它比较
仅 Firefox 中的疯狂 CSS 问题 - 位置固定和背景颜色

请参阅此链接 http lsp2 tpdserver2 co uk test htm http lsp2 tpdserver2 co uk test htm 在 IE Chrome 中显示良好但在 Firefox 6 0 1 中蓝色标题
将二进制文件读入数组

我有一个由一系列 32 位有符号整数值小端组成的文件如何将其读入数组或类似数据结构我试过这个 block 4 while true do local int image read block if not int then br
R中随机森林的并行执行

我在 R 中并行运行随机森林 library doMC registerDoMC x lt matrix runif 500 100 y lt gl 2 50 并行执行耗时 73 秒 rf lt foreach ntree rep 250
C++中的函数指针语法

我刚刚学习 C 中的函数指针以下示例全部编译并返回预期结果但我被告知示例 3 是正确的方法为什么其他示例仍然有效还有一件事看起来很奇怪那就是例子f g h i与上面的示例相比这并不全部有效与示例 1 8 相比它们为什么不起作
Spark Scala 流式 CSV

我是 Spark Scala 的新手我知道如何加载 CSV 文件 sqlContext read format csv 以及如何读取文本流和文件流 scc textFileStream file c path filename scc f
如何更改 xamarin.android 中默认显示警报的背景颜色？

我想更改显示警报的默认背景颜色我在不同的网站上尝试了很多问题谁能帮我您可以使用以下方法实现此行为Rg Plugins Popup https github com rotorgames Rg Plugins Popup为了模仿默认显示
Spring webflux block、flatmap 和 subscribe 的区别

我有一个api需要调用其他3个api 第二个和第三个api调用依赖于第一个api的结果我对执行此操作的最佳方法以及使用块订阅和平面地图之间的区别有点困惑所有这 3 种方法都适合我但我不确定哪一种是最好的这就是我目前所拥有的 web
如何从 CLI 调用 gnuplot 并将输出图形保存到图像文件？

我正在编写一个批处理文件该文件还将从 dat 文件生成 gnuplot 图我希望使用我编写的 gnuplot gnu 脚本从命令行调用 gnuplot 并将输出图形保存到图像中就像是 gnuplot exe script gnu gt
有人知道 eclipse 的共享待办事项列表插件吗

有谁知道 Eclipse 的共享 TODO 列表插件允许开发团队中的所有用户查看和编辑相同的任务列表 Mylyn http www eclipse org mylyn 可用于将问题跟踪系统集成到 IDE 中它通过使任务成为 Eclipse
使用 Macro_rules 中的可选数据表示枚举变体

我正在尝试创建一个宏来帮助处理我一直在重复编写的一些样板枚举代码我设法使用基本的方法相对轻松地实现了一个简单的枚举即没有参数 macro rule 例如摘录 macro rules enum helper type ident name
是否可以恢复损坏的“interned”字节对象

众所周知小bytes 对象由 CPython 自动驻留类似于intern https docs python org 3 library sys html sys intern 字符串函数更正 As 解释了 https stacko

是否可以恢复损坏的“interned”字节对象

是否可以恢复损坏的“interned”字节对象 的相关文章

随机推荐

热门标签

是否可以恢复损坏的“interned”字节对象的相关文章