CPython 中的模块加载是如何工作的？

2023-12-30

CPython 中的模块加载在幕后是如何工作的？特别是，用 C 语言编写的扩展的动态加载是如何工作的？我可以在哪里了解这方面的信息？

我发现源代码本身相当令人难以承受。我可以看到那个值得信赖的人dlopen()和朋友在支持它的系统上使用，但没有任何大局意识，需要很长时间才能从源代码中弄清楚这一点。

关于这个主题可以写出大量的文章，但据我所知，几乎没有任何内容——描述 Python 语言本身的大量网页使得搜索变得困难。一个很好的答案将提供相当简短的概述和我可以了解更多信息的资源参考。

我最关心的是它如何在类 Unix 系统上工作，因为这是我所知道的，但我感兴趣的是这个过程在其他地方是否相似。

更具体地说（但也有假设太多的风险），CPython 如何使用模块方法表和初始化函数来“理解”动态加载的 C？

TLDR 短版加粗。

对Python源代码的引用基于版本2.7.6。

Python 通过动态加载导入大多数用 C 编写的扩展。动态加载是一个深奥的主题，没有很好的文档记录，但它是绝对的先决条件。在解释之前howPython使用它，我必须简单解释一下这是什么 and whyPython 使用它。

历史上，Python 的 C 扩展是与 Python 解释器本身静态链接的。这要求 Python 用户每次想要使用用 C 编写的新模块时都重新编译解释器。正如您可以想象的那样，吉多·范·罗森描述 http://python-history.blogspot.com/2009/03/dynamically-loaded-modules.html，随着社区的发展，这变得不切实际。如今，大多数 Python 用户从未编译过解释器一次。我们只需“pip install module”，然后“import module”，即使该模块包含已编译的 C 代码。

链接使我们能够跨已编译的代码单元进行函数调用。动态加载解决了在运行时决定链接内容时链接代码的问题。也就是说，它允许正在运行的程序与链接器交互并告诉链接器它想要链接什么。对于 Python 解释器来说，需要使用 C 代码导入模块。编写在运行时做出此决定的代码非常罕见，大多数程序员都会惊讶于这是可能的。简单地说，C 函数有一个地址，它希望您将某些数据放在某些位置，并且它承诺在返回时将某些数据放在某些位置。如果你知道秘密握手，你就可以调用它。

动态加载的挑战在于，程序员有责任正确地进行握手，并且没有安全检查。至少，它们没有提供给我们。通常，如果我们尝试调用具有不正确签名的函数名，我们会收到编译或链接器错误。通过动态加载，我们在运行时通过名称（“符号”）向链接器请求函数。链接器可以告诉我们是否找到了该名称，但它不能告诉我们如何调用该函数。它只是给了我们一个地址——一个空指针。我们可以尝试转换为某种函数指针，但这完全取决于程序员是否正确转换。如果我们在转换中发现函数签名错误，那么编译器或链接器警告我们就为时已晚了。当程序失去控制并最终不恰当地访问内存后，我们很可能会遇到段错误。使用动态加载的程序必须依赖于预先安排的约定和在运行时收集的信息来进行正确的函数调用。在我们讨论 Python 解释器之前，先看一个小例子。

文件1：main.c

/* gcc-4.8 -o main main -ldl */
#include <dlfcn.h> /* key include, also in Python/dynload_shlib.c */

/* used for cast to pointer to function that takes no args and returns nothing  */
typedef void (say_hi_type)(void);

int main(void) {
    /* get a handle to the shared library dyload1.so */
    void* handle1 = dlopen("./dyload1.so", RTLD_LAZY);

    /* acquire function ptr through string with name, cast to function ptr */
    say_hi_type* say_hi1_ptr = (say_hi_type*)dlsym(handle1, "say_hi1");

    /* dereference pointer and call function */
    (*say_hi1_ptr)();

    return 0;
}
/* error checking normally follows both dlopen() and dlsym() */

文件2：dyload1.c

/* gcc-4.8 -o dyload1.so dyload1.c -shared -fpic */
/* compile as C, C++ does name mangling -- changes function names */
#include <stdio.h>

void say_hi1() {
    puts("dy1: hi");
}

这些文件是单独编译和链接的，但 main.c 知道在运行时寻找 ./dyload1.so。 main 中的代码假设 dyload1.so 将有一个符号“say_hi1”。它使用 dlopen() 获取 dyload1.so 符号的句柄，使用 dlsym() 获取符号的地址，假设它是一个不带参数且不返回任何内容的函数，然后调用它。它无法确切地知道“say_hi1”是什么——事先达成的协议就是阻止我们出现段错误的唯一方法。

我上面展示的是 dlopen() 系列函数。 Python 部署在许多平台上，并非所有平台都提供 dlopen()，但大多数平台都有类似的动态加载机制。Python通过将多个操作系统的动态加载机制包装在一个公共接口中来实现可移植的动态加载。

Python/importdl.c 中的这条注释总结了该策略。

/* ./configure sets HAVE_DYNAMIC_LOADING if dynamic loading of modules is
   supported on this platform. configure will then compile and link in one
   of the dynload_*.c files, as appropriate. We will call a function in
   those modules to get a function pointer to the module's init function.
*/

如前所述，在 Python 2.7.6 中，我们有这些 dynload*.c 文件：

Python/dynload_aix.c     Python/dynload_beos.c    Python/dynload_hpux.c
Python/dynload_os2.c     Python/dynload_stub.c    Python/dynload_atheos.c
Python/dynload_dl.c      Python/dynload_next.c    Python/dynload_shlib.c
Python/dynload_win.c

他们各自定义了一个具有以下签名的函数：

dl_funcptr _PyImport_GetDynLoadFunc(const char *fqname, const char *shortname,
                                    const char *pathname, FILE *fp)

这些函数包含针对不同操作系统的不同动态加载机制。 Mac OS 10.2 之后的版本和大多数 Unix（类似）系统上的动态加载机制是 dlopen()，在 Python/dynload_shlib.c 中调用。

浏览 dynload_win.c，Windows 的类似函数是 LoadLibraryEx()。它的用法看起来非常相似。

在 Python/dynload_shlib.c 的底部，您可以看到对 dlopen() 和 dlsym() 的实际调用。

handle = dlopen(pathname, dlopenflags);
/* error handling */
p = (dl_funcptr) dlsym(handle, funcname);
return p;

在此之前，Python 将其与要查找的函数名称组合成字符串。模块名称位于 Shortname 变量中。

 PyOS_snprintf(funcname, sizeof(funcname),
              LEAD_UNDERSCORE "init%.200s", shortname);

Python 只是希望有一个名为 init{modulename} 的函数，并向链接器询问它。从这里开始，Python 依赖于一小组约定来使 C 代码的动态加载成为可能且可靠。

让我们看看 C 扩展必须执行哪些操作才能履行使上述对 dlsym() 的调用起作用的契约。对于已编译的 C Python 模块，允许 Python 访问已编译的 C 代码的第一个约定是 init{shared_library_filename}() 函数。 For 名为 spam 的模块 https://docs.python.org/2/extending/extending.html编译为名为“spam.so”的共享库，我们可以提供这个 initspam() 函数：

PyMODINIT_FUNC
initspam(void)
{
    PyObject *m;
    m = Py_InitModule("spam", SpamMethods);
    if (m == NULL)
        return;
}

如果 init 函数的名称与文件名不匹配，Python 解释器将无法知道如何找到它。例如，将 spam.so 重命名为 notspam.so 并尝试导入会产生以下结果。

>>> import spam
ImportError: No module named spam
>>> import notspam
ImportError: dynamic module does not define init function (initnotspam)

如果违反命名约定，则根本无法判断共享库是否包含初始化函数。

第二个关键约定是，一旦调用，init 函数负责通过调用 Py_InitModule 来初始化自身。此调用将模块添加到解释器保存的“字典”/哈希表中，将模块名称映射到模块数据。它还在方法表中注册 C 函数。调用 Py_InitModule 后，模块可以通过其他方式初始化自身，例如添加对象。（前任：Python C API 教程中的 SpamError 对象 https://docs.python.org/2/extending/extending.html）。（Py_InitModule 实际上是一个宏，它创建真正的 init 调用，但包含一些信息，例如我们编译的 C 扩展使用的 Python 版本。）

如果 init 函数有正确的名称但没有调用 Py_InitModule()，我们会得到：

SystemError: dynamic module not initialized properly

我们的方法表恰好称为 SpamMethods，如下所示。

static PyMethodDef SpamMethods[] = {
    {"system", spam_system, METH_VARARGS,
     "Execute a shell command."},
    {NULL, NULL, 0, NULL}
};

方法表本身及其所涉及的函数签名契约是第三个也是最后一个关键约定Python 理解动态加载的 C 语言所必需的。方法表是一个带有最终哨兵条目的 struct PyMethodDef 数组。 PyMethodDef 在 Include/methodobject.h 中定义如下。

struct PyMethodDef {
    const char  *ml_name;   /* The name of the built-in function/method */
    PyCFunction  ml_meth;   /* The C function that implements it */
    int      ml_flags;  /* Combination of METH_xxx flags, which mostly
                   describe the args expected by the C func */
    const char  *ml_doc;    /* The __doc__ attribute, or NULL */
};

这里的关键部分是第二个成员是 PyCFunction。我们传入了一个函数的地址，那么什么是PyCFunction呢？它是一个 typedef，也在 Include/methodobject.h 中

typedef PyObject *(*PyCFunction)(PyObject *, PyObject *);

PyCFunction 是指向函数的指针的 typedef，该函数返回指向 PyObject 的指针，并采用两个指向 PyObject 的指针作为参数。作为约定三的引理，使用方法表注册的 C 函数都具有相同的签名。

Python 通过使用一组有限的 C 函数签名来规避动态加载的大部分困难。大多数 C 函数都使用一种特殊的签名。指向带有附加参数的 C 函数的指针可以通过转换为 PyCFunction 来“隐藏”。（参见 keywdarg_parrot 示例Python C API 教程 https://docs.python.org/2/extending/extending.html.）即使是备份 Python 函数的 C 函数（在 Python 中不带参数）也会在 C 中带两个参数（如下所示）。所有函数都应该返回一些东西（可能只是 None 对象）。 Python 中采用多个位置参数的函数必须从 C 中的单个对象中解压这些参数。

这就是与动态加载的 C 函数接口的数据的获取和存储方式。最后，这是一个如何使用该数据的示例。

这里的上下文是，我们正在逐条指令地评估 Python“操作码”，并且我们已经命中了函数调用操作码。（看https://docs.python.org/2/library/dis.html https://docs.python.org/2/library/dis.html。值得浏览一下。）我们已经确定 Python 函数对象由 C 函数支持。在下面的代码中，我们检查 Python 中的函数是否不带参数（在 Python 中），如果是，则调用它（在 C 中使用两个参数）。

Python/ceval.c。

if (flags & (METH_NOARGS | METH_O)) {
    PyCFunction meth = PyCFunction_GET_FUNCTION(func);
    PyObject *self = PyCFunction_GET_SELF(func);
    if (flags & METH_NOARGS && na == 0) {
        C_TRACE(x, (*meth)(self,NULL));
    }

当然，它确实需要 C 语言的参数——正好两个。由于 Python 中一切都是对象，因此它有一个 self 参数。在底部你可以看到meth分配一个函数指针，然后取消引用并调用该函数指针。返回值以 x 结尾。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CPython 中的模块加载是如何工作的？的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

多个dex文件定义了Landroid/support/design/widget/CoordinatorLayout$1；

每当我想运行我的项目时我都会收到以下错误错误任务执行失败 app transformClassesWithDexForDebug com android build api transform TransformException c
错误：文件名 try.xlsx 在 excel_reader2.php 中不可读

我想在 php 中读取上传的 Excel 文件所以我下载了excel reader2 php 来自以下链接 link https code google com p php excel reader downloads list 当我将其
Context.startServiceAsUser() 在哪里？

亲爱的所有 Android 专家目前我获取了一个开源 Android 项目 wso2 代理该项目需要在 Context 类中使用 API startServiceAsUser 然而 android studio无法识别这个API 我该
我可以在不使用 eval 的情况下编写这个宏吗？

我正在尝试编写一个宏来捕获 Clojure 中的编译时错误具体来说我想捕获调用尚未针对该数据类型实现的协议方法时抛出的异常并且clojure lang Compiler CompilerException被抛出到目前为止我有 def
nf_conntrack_helper_register返回错误

在内核中如果我想重新启动我的 conntrack 寄存器 nf conntrack helper unregister sip i j redefinition of the sip i j parameters nf conntrack
递归函数接受方案中的列表

我是计划新手这是我的第一个函数式语言递归地实现几乎所有事情对我来说似乎都很尴尬尽管如此能够实现具有单个整数输入的阶乘和斐波那契问题的函数但是当您的函数有列表输入时该怎么办假设这个练习功能 ret10 提取并以列表形式返回所有
如何从 MacOS 的照片库获取所有 PHAsset

我想使用以下命令解析 MacOS 照片库中的所有图像PHAsset https developer apple com documentation photos phasset language objc 然而我发现的所有示例仅适用于 i
如何使用 jquery $.get() 发送参数

我正在尝试执行 jquery GET 并且我想发送一个参数这是我的功能 function var availableProductNames get manageproducts do option 1 function data ava
如何在 Java 中生成相当于 Python 示例的 HMAC？

我正在考虑实现一个应用程序Twitter 通过 Oauth 授权 http apiwiki twitter com Authentication在爪哇第一步是获取请求令牌 http apiwiki twitter com Twitter
比较 EL 中的字符串[重复]

这个问题在这里已经有答案了我向 JSP 提供一个 User 对象并希望将用户的属性与给定的字符串进行比较我现在正在做的事情如下
Ruby，混合实例变量和方法

我有两个文件一个带有模块ToMix module ToMix module var modulevar def self mix function puts mix function SELF module var end def mix
尝试解密时出现错误密钥 CryptographicException

我使用命令创建以下文件 makecert n CN TEST CER sv Test pvk r sky echange pe test cer pvk2pfx pvk Eltapk pvk spc test cer pfx test pf
对浮点数进行四舍五入 bash

好的所以我正在尝试对输入进行四舍五入17 92857 这样它就可以得到输入17 929在bash中到目前为止我的代码是 read input echo scale 3 input bc l 但是当我使用它时它不会四舍五入而是返回1
SELECT 字段列表中的 CONCAT() 函数

我正在使用 CodeIgniter 的活动记录功能但无法选择我感兴趣的数据我想要被选中的是 CONCAT t field1 t field2 AS finalValue 所以我添加这个 this gt db gt select CONC
使用 Gson 序列化的 RealmObjects 的组合继承

出于各种原因我正在考虑将 Realm 作为数据库解决方案但目前最大的问题是 Nougat 中抛出的 TransactionTooLargeException 已经做到了这一点所以我必须基于 ActiveAndroid 重新设计我当前的
如何将聚合与列名列表一起使用

你如何抽象aggregate在函数中通过传递条件和值列表来总结 This works fine x lt data frame cond1 sample letters 1 3 500 replace TRUE cond2 sample L
关于[NSNull null]的一些困惑，nil [重复]

这个问题在这里已经有答案了可能的重复 NSNull null 和 nil 有什么区别 https stackoverflow com questions 836601 whats the difference between nsnull
str_replace() 与关联数组

您可以将数组与 str replace 一起使用 array from array from1 from2 array to array to1 to2 text str replace array from array to text 但
无法在 Android 上的 WebView 中下载 Blob 文件类型

我想从 webview 下载文件但每次都会出错只能下载 HTTP HTTPS URI blob https https 我在我的代码中使用这个 ngOnInit let webview WebView this webViewRef n
CPython 中的模块加载是如何工作的？

CPython 中的模块加载在幕后是如何工作的特别是用 C 语言编写的扩展的动态加载是如何工作的我可以在哪里了解这方面的信息我发现源代码本身相当令人难以承受我可以看到那个值得信赖的人dlopen 和朋友在支持它的系统上使用但没有

CPython 中的模块加载是如何工作的？

CPython 中的模块加载是如何工作的？ 的相关文章

随机推荐

热门标签

CPython 中的模块加载是如何工作的？的相关文章