为了在任何计算机上运行应用程序,其代码必须始终以某种方式转换为机器代码,然后由 CPU 执行。问题在于这种情况何时以及如何发生。
让我尝试向您展示 Python 如何有效地执行字节码。
编译器与解释器
想象一下,你计算机中的 CPU 除了拉丁语之外什么都不懂。您想向其发送一封包含详细说明或请求的信件,但您不会说拉丁语。因此,您将聘请一位翻译人员:为您将您的“英语”字母(或您使用的任何语言)翻译成拉丁语的人。
编译语言像 C 或 Rust 一样,将整个字母翻译成拉丁文,然后进行真正的润色。结果是一封翻译后的信件充满诗意且使用复杂的语言。一个口译员另一方面,像 Python 一样,一次翻译一个单词或一个句子;它更像是您在新闻中遇到的口译员,可以翻译外语人士所说的内容。
Bytecode
从 C、Rust 或 Python 等语言到机器代码的完整翻译过程非常复杂,需要仔细分析原始程序代码。为了避免一遍又一遍地分析你的程序代码,Python解释器只会执行一次,然后生成bytecode这是 Python 代码的非常接近的表示,但分为基本元素。
让我们看一个非常简单的 Python 函数:
def f(x):
y = (x + 1)*(x - 1)
return y
该函数中的计算包含多项计算,所有计算都必须按正确的顺序执行。字节码反映了这一点:
LOAD_VAR x # x+1
LOAD_CONST 1
ADD
LOAD_VAR x # x-1
LOAD_CONST 1
SUBTRACT
MULTIPLY # ()*()
STORE_VAR y # y = ...
LOAD_VAR y
RETURN
事实上,Python 中的字节码通常是 Python 代码本身的非常接近的表示,只是分解为“原子”简单操作的片段。
在内部,每个字节码指令都有一个数值(实际上适合一个字节,因此得名)。例如,LOAD_VAR = 124
, LOAD_CONST = 100
, ADD = 23
等等。而局部变量和常量值也是通过数字来表示的。因此,如果我们分配x = 01
and y = 02
,上面的代码就变成:
124, 01, 100, 01, 23, 124, 01, 100, 01,
24, 20, 125, 02, 124, 02, 83
执行字节码
下面您将找到一个简单且简约的“Python 字节码”解释器,它能够执行我们在开始时定义的函数。这Python 的实际字节码解释器用 C 编写,因此编译为高效的机器代码。但原理是完全一样的。
它使用一个stack保存中间值。也就是说,每个操作的结果都附加到一个列表中。进一步处理这些结果的操作将它们从列表的末尾取出,执行某些操作(例如将它们加在一起),然后将结果附加回列表(但是在执行减法或除法等操作时必须小心,以保持正确的顺序)。
将字节码排列成指令和参数对很方便。有些指令(如 ADD)没有参数,所以我们只使用0
在这种情况下。但这里使用的代码仍然是上面介绍的字节码。
def execute(bytecode, consts, vars):
stack = []
for (instr, arg) in bytecode:
if instr == 20:
stack.append(stack.pop() * stack.pop())
elif instr == 23:
stack.append(stack.pop() + stack.pop())
elif instr == 24:
second = stack.pop()
first = stack.pop()
stack.append(first - second)
elif instr == 83:
return stack.pop()
elif instr == 100:
stack.append( consts[arg] )
elif instr == 124:
stack.append( vars[arg] )
elif instr == 125:
vars[arg] = stack.pop()
my_bytecode = [
(124, 1), (100, 1), (23, 0), (124, 1), (100, 1),
(24, 0), (20, 0), (125, 2), (124, 2), (83, 0)
]
my_consts = [ None, 1 ]
my_vars = [ x, 0 ]
execute(my_bytecode, my_consts, my_vars)
您实际上可以查看常量值列表(尽管它们实际上是元组,而不是列表),或者使用以下方式定义局部变量的顺序:
print(f.__code__.co_code) # prints the bytecode
print(f.__code__.co_consts) # prints (None, 1)
print(f.__code__.co_varnames) # prints ('x', 'y')
更方便的是使用inspect and dis当然是模块。