C语言进阶:程序预处理

2023-10-27

程序预处理

本章节研究的是,源代码文件test.c是如何一步步得到一个可执行程序test.exe的。在之前的学习中可知.c文件要先后经过编译链接成.exe文件再执行。

程序的编译链接运行如下图所示。翻译中编译又包括预编译、编译、汇编。

编译链接执行三个步骤,都需要为其配置不同的环境。编译和链接在翻译环境中,而执行在运行环境中发生。

  • 翻译环境:在该环境中源代码被转换成可执行的机器指令。
  • 执行环境:用于实际执行代码。

程序的翻译环境

翻译阶段的大致流程如下图所示。

组成一个程序的每个.c源文件都会被编译器编译,分别生成对应的.obj目标文件。多个目标文件以及引入的链接库被链接器链接在一起,形成一个单一的.exe可执行程序。

编译器即是一个用于编译代码的工具,在vs环境下为cl.exe的可执行程序。连接器则是用于链接所有目标文件的工具,在vs中为link.exe的可执行程序,链接库是标准中任何被该程序用到的函数。如图:

而若想观察翻译代码过程中的每一个流程的具体细节,在集成开发环境vs中不便展示,当然我们可以使用Linux环境下的gcc编译器。

此次演示就采用加法函数,分别存放在两个文件test.cadd.c

//1. add.c
int Add(int x, int y)
{
	int sum = x + y;
	return sum;
}

//2. test.c
#include <stdio.h> 
//声明函数
extern int Add(int x, int y);
int main()
{
	int a = 10;
	int b = 20;
	int ret = 0;
	ret = Add(a, b);
	printf("ret = %d\n", ret);
	return 0;
}
预编译

Linux环境下编写完test.c文件的代码后,输入gcc test.c -E可以将代码预编译的结果输出到屏幕上。还可以用gcc test.c -E -o test.i是将结果输出到文件test.i

#include,#define,#pragma的语句被称为预处理指令,还有注释文本的删除,都在此阶段完成替换。

所有可以看出预编译阶段的动作都是文本操作

  1. #include头文件的包含
  2. #define预处理符号的替换
  3. 删除注释

预编译,顾名思义,是在编译前删减代码中的不必要的与机器识别代码无关的内容。被称为文本操作

编译

对预编译产生的文件test.i再编译gcc test.i -S,会自动生成汇编代码test.s

故编译阶段是将C语言代码转化为汇编代码,这是整体现象。实际上会发生这四个动作:

  1. 词法分析,语法分析,语义分析

词法分析,语法分析,语义分析都是编译器识别语句的操作。重点是接下接下来的符号汇总。

  1. 符号汇总

符号汇总,是只对全局符号进行汇总,局部符号是不进行汇总的。目的是能够将所有文件中的代码组合到一起成一个完整的程序。如add.c文件中的函数名Add,还有test.c文件中的Addmain

汇编

gcc test.s -C将编译结束产生的汇编代码转化成了二进制指令(机器指令)存入二进制文件test.o中。

汇编阶段会形成符号表,因为机器在调用指令时需要知道其存放的位置,所谓符号表大概就是符号和其地址的集合。如图,可以假设:

链接

链接将二进制指令目标文件test.o等,链接在一起形成可执行程序test.out。目标文件test.oelf格式文件,在Linux平台下可以用readelf翻译并查看其内容。

链接阶段的动作是:

  1. 合并段表

所谓的链接,就是将对应的段合并起来。

  1. 符号表的合并和重定位

符号表的合并,是将各自的符号表合并到一起。如test.o中的Add的无效地址,需把add.oAdd的地址合并过去再重定位到变量的真实地址,才是有意义的。

从编译期间的符号汇总,到汇编时的形成符号表,再到链接时的合并和重定位符号表,都是为了最后生成可执行程序时能够找到并链接各个文件中的符号。

程序的执行环境

  1. 程序首先载入内存

    有的机器上有操作系统,这个动作就是由操作系统完成,没有的由手工完成。

  2. 执行调用main函数

  3. 创建函数栈帧

    程序使用一个运行时堆栈,存储函数的局部变量和返回地址。

  4. 终止程序

    可以正常也可以意外终止程序。

程序的执行并不是本章的要点,所以就大概介绍一下。

 

程序的预处理

上面总体介绍了程序的编译链接运行,下面详细的讲解程序预处理时所发生的事情。

预定义符号

下面所列举的是一些预定义符号,之所以叫预定义,是因为只在预定义阶段有效,而预编译时就将其转换为相应的值。

//1.
__FILE__ //代码所在文件的文件名
//2.
__LINE__ //当前代码所在的行号
//3.
__DATE__ //文件被编译的日期
//4.
__TIME__ //文件被编译的时间
//5.
__STDC__ //当前编译器支持ANSI C,则值为1,否则未定义

使用场景,如图所示:

当然vs对C标准并不是完全支持的,所以最后一个在vs中无法显示。

#define

#define 定义符号
#define MAX 100
int main() 
{
	int m = MAX;
	return 0;
}

#define定义的符号在预编译期间会完成替换。如图所示:

注意
  • #define定义标识符时,最好不要在最后加上;

若加上;,那么;也就是标识符内容的一部分。这样会在实际代码中多出一个分号,空语句。

  • 当定义类型时,#definetypedef的区别

#definetypedef一个是定义标识符,一个是定义类型,二者本身并无任何联系。

#define INT int
typedef int int_t;

当#define定义类型时,除了语法形式不同外,

#define定义的INT是个标识符,在预处理阶段就被替换成int。typedef定义的int_t本身编译器认定为类型,编译到运行都不会变。

#define 定义的宏

#define定义宏和标识符常量的区别是宏有参数。将参数替换到文本中,这种实现被称为宏。

//声明形式
#define Name(para1,...) stuff

参数列表需紧靠左边宏名,不然会被解析为宏体的一部分。

宏形式类型于数学中的函数 f ( x ) = x 2 f(x)=x^2 f(x)=x2 ,都是将参数带入计算结果。如图:

错误形式
//1.
#define SQUARE(x) x*x
int main()
{
	int ret = SQUARE(5 + 1);
	printf("%d\n", ret);

    return 0;
}

上述代码,计算的结果并非36,而是11。因为在替换的过程中SQUARE(5+1)替换成立5+1*5+1,遂得11。

为避免参数为表达式时由运算符优先级差异而产生歧义,需要对宏体中的单项x(x)

//2.
#define DOUBLE(x) (x)+(x)
int main()
{
	int ret = 2 * DOUBLE(5);
	printf("%d\n", ret);

	return 0;
}

上述代码计算结果也不是我们想要的2*(5+5)=20,而是2*5+5=15。这次是宏名外的运算符产生的歧义,故得出宏体整体还需加()

所以正确的写法为

#define DOUBLE(x) ((x)+(x))

正确形式是:宏体中的单项参数和整个宏体都需要加上()

#define 的替换规则
  1. 宏调用时,首先检查并替换参数和宏体中用#define定义的符号。

  2. 然后再将宏和参数的值替换过去。

  3. 扫描结果文本,若仍包含#define定义内容,就重复上述处理。

注意
  • 宏参数和宏体中允许出现其他#define定义的宏或标识符。但宏不允许递归。
  • 预处理器搜索#define定义符号时,字符串常量中的内容不被搜索。
宏操作符 ###

#可以将参数插入字符串中。

int a = 10;
printf("The value of a is %d\n", a);
int b = 10;
printf("The value of b is %d\n", b);
int c = 10;
printf("The value of c is %d\n", c);

如这样的代码,我们如何将自动将字符串中的a,b,c替换而不用每次都修改字符串呢?

首先,C语言中两个字符串放在一起会自动视为一个字符串,如:

printf("Hello world\n");
printf("Hello ""world\n");

当然**#的作用是将#后面的参数转化成对应的字符串**,如果前后都是字符串,那么自动拼接为一个字符串。

这样上述需求我们就找到了解决方法。

#define PRINT(n) printf("The value of "#n" is %d\n",n);
int main()
{
    int a = 10;
    PRINT(a);
    int b = 20;
    PRINT(b);
}

首先传参将n替换为a,故#a被转化为字符串"a"PRINT(a)会被替换成printf("The value of ""a"" is %d\n",a)

##将位于其两边的符号合成一个符号。

#define CAT(X,Y) X##Y
int main()
{
	int class102 = 100;	
	printf("%d\n", CAT(class,102));//100

    printf("%d\n", CAT(1, 0));//10
	
	CAT(class, 102) = 200;
	printf("%d\n", CAT(class, 102));//200
	return 0;
}

可见,拼接起来的不仅可以视为符号,也可以视为数字,字符串等。个人认为既然##拼接行为是在预处理阶段完成的,对于正在编译的代码来说##合成的结果和代码敲出来的是一样的。

宏操作符###只能在宏中使用。

带副作用的宏参数

宏的参数传入一些带有副作用的操作符,可能会导致一些未知的错误。

a = 1;
//1.
b = a + 1;//b=2, a=1
//2.
b = a++;//b=2, a=2

如此,二者相比b虽然都是2,但后者a自增了1,这就是带有副作用的表达式。

//1. 宏
#define MAX(X,Y) ((X)>(Y)?(X):(Y))
//2. 函数
int Max(int x, int y) {
    return x>y?x:y;
}
int main() 
{
	int a = 20;
	int b = 10;
	int m1 = MAX(a++, b++);
    int m2 = Max(a++, b++);
	return 0; 
}

因为都是后置++,所以a++,b++的值还是20和10,当然判断之后a,b的值分别+1,整个表达式的值就是后面的a++的值即21,然后a的值又+1,当然后面b++的表达式不执行。

可以看出,宏的参数是不计算,直接预编译时整体替换后在编译期间计算的。而函数传参同样因为后置++,而传的是a++,b++的值,传完之后a,b分别+1。

宏和函数的对比

宏常被用于执行相对简单的运算,正如上面的例子。当然函数同样也能执行这样的任务,如何选择,请看下列二者优劣的分析。

宏的优势:

  1. 使用函数要建立栈帧,销毁栈帧,一系列的准备工作比实际任务大得多。故宏在程序规模和执行速度方面更胜一筹。
  2. 函数参数必须声明类型,且只能适用一种类型,而宏无类型检查,只要满足运算的类型都可以作参数。

宏的劣势:

  1. 每次调用宏时,都会将宏的代码替换到调用处。若宏代码量大,可能会大幅增加代码长度。
  2. 宏替换发生在预编译期间,故无法调试。
  3. 宏的类型无关性,也会导致其不够严谨。
  4. 宏可能由于运算符优先级的问题,会导致程序出错。

当然宏可以做到函数做不到的事情,如宏的参数可以是类型。下列宏offsetof计算成员的偏移量的模拟实现。

#define offsetof(StructType, MemberName) (size_t)&(((StructType*)0)->MemberName)
分类 函数
代码长度 宏代码插入后,程序长度可能大幅增加 函数代码仅存一份,每次调用同一位置
执行速度 简单更快 栈帧的创建和销毁的额外开销
操作符优先级 周围表达式中操作符优先级可能会致错,故要加全括号 参数在调用处求值一次并传递表达式的值
参数副作用 直接替换后再对参数进行处理,副作用的参数可能会致错 参数在传参处求值后再传参处理数据
参数类型 宏参数与类型无关,在操作合法的情况下,适用于任意类型 函数参数受类型限制,参数类型不同需要不同的函数
调试 无法调试 函数可以调试
递归 无法递归 函数可以递归

所以对于二者的好坏我们要辩证的看待。

命名规范

宏与函数的使用方式很类似,语法无法将二者区分开来。故一般规定宏名字母全部大写,而函数采用大小驼峰形式。

命名规范是约定俗成的东西,真正凸显实力的是写出效率高量少的代码,而不是任性违背规范。

#undef

#undef用于移除宏定义。故一般和#define搭配使用。

#define MAX 100
int main()
{
	int a = MAX;	
#undef MAX
    //int b = MAX;Err
	
    return 0;
}

这样可以使预定义符号MAX在不同的代码处,可以拥有不同的定义。先移除再重新定义即可。

命令行定义

命令行定义是指在启动编译时对代码文本中的符号进行定义。

如上列代码所示,数组大小SZ未定义,我们可以在编译该源文件时添上对SZ的定义:gcc test.c -D SZ=10

根据不同的情况给变量赋不同的值。这使得对于同一段代码编译出不同结果时,更加方便。

条件编译

条件编译指令使得让某段代码参与或不参与编译的操作变得相对容易,类似于注释代码,达到选择性编译的效果。

常见编译指令

常见的条件编译指令如下,类似于if语句也有单分支多分支的情况:

//1.
#if 常量表达式
#endif
//2.
#if 常量表达式
#elif 常量表达式
#else
#endif

#if,#elif,#else类似于if语句结构,#endif用于结束条件编译。

//单分支
int main() {
#if 1
	printf("haha\n");
#endif

#if 0 
	printf("hehe\n");
#endif
	return 0;
}
//多分支
int main() {
#if 1==2
	printf("hehe\n");
#elif 2==3
	printf("haha\n");
#else
	printf("...\n");

#endif 
	return 0;
}

满足条件则执行,不满足条件则不执行。注意条件只能是常量表达式,因为预编译指令只在预处理阶段中起作用,而变量是在运行期间创建的。

还有更特殊化的条件编译指令,单独用于判断符号是否被定义,如#if defined,#if !defined等。

//3.1
#if defined (symbol)
#endif
//3.2
#ifdef symbol
#endif
//4.1
#if !defined(symbol)
#endif
//4.2
#ifndef symbol
#endif

语法规定每一个条件编译指令#if...都要搭配上#endif使用。

#define MAX 100
int main() {
//1.定义
#if defined (MAX)
	printf("haha\n");
#endif

#ifdef MAX
	printf("hehe\n");
#endif

//2.未定义
#if !defined (MAX)
	printf("dada\n");
#endif

#ifndef MAX
	printf("titi\n");
#endif
	return 0;
}
  • #if define..代表当其后条件满足时,执行下面语句,#ifdef..是其简写形式。
  • #if !define..代表当其后条件不满足时,执行下面语句,#ifndef..是其简写形式。
嵌套指令
#define SBL 100
#define OPTION 100
int main() {
#if defined (SBL1)
    #ifdef OPTION1
		option1();
	#endif
	#ifdef OPTION2
		option2();
	#endif
#elif defined (SBL2)
    #ifdef OPTION3
		option3();
	#endif
	#ifdef OPTION4
		option4();
	#endif
#endif
	return 0;
}

同样条件编译指令也是预处理指令,预处理后自然将不满足条件的内容删去。

文件包含

#include..也是预处理指令,用于包含代码所需头文件。一般有两种形式:

  1. #include <filename>

  2. #include "filename"

二者查找策略不同,<>首先在安装目录的链接库目录下查找,找不到则报错。""首先在工程目录下查找,如果找不到则去安装目录下查找。

库文件也可以用""的方式包含,但这样会降低效率,也不易区分。

头文件一多容易出现重复包含,解决方案有两种:

//1. 条件编译指令
#ifndef __TEST.H__
#define __TEST.H__
#endif
//2. 预处理指令
#pragma once
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

C语言进阶:程序预处理 的相关文章

  • 在搜索 List 时,为什么 Enumerable.Any(Func predicate) 比带有 if 语句的 foreach 慢

    最近有件事引起了我的好奇心 Why is the Enumerable Any Func
  • 使用具有现有访问令牌的 Google API .NET 客户端

    用例如下 移动应用程序正在通过 Google 对用户进行身份验证 并且在某些时候 我们需要将用户的视频发布到他的 YouTube 帐户 出于实际原因 实际发布应该由后端完成 已经存储在那里的大文件 由于用户已经通过应用程序的身份验证 因此应
  • C#动态支持吗?

    看完之后这个帖子 https stackoverflow com questions 2674906 when should one use dynamic keyword in c sharp 4 0k和链接 我还有 2 个问题 问题 1
  • 以编程方式检查页面是否需要基于 web.config 设置进行身份验证

    我想知道是否有一种方法可以检查页面是否需要基于 web config 设置进行身份验证 基本上如果有这样的节点
  • 32 位应用程序的特征最大矩阵大小

    所以 我正在寻找Eigen http eigen tuxfamily org index php title Main Page当我尝试声明大于 10000x10000 的矩阵时 包崩溃 我需要声明一个像这样的矩阵 可靠地大约有 13000
  • 从 MVC 迁移到 ASP.NET Core 3.1 中的端点路由时,具有角色的 AuthorizeAttribute 不起作用

    我正在尝试将我的项目从 UseMVC asp net core 2 2 兼容样式 升级到 UseEndpoint Routing 并且我的所有请求都被重定向到我的验证失败页面 它与声明有关 如果我删除 Authorize Roles Adm
  • 对齐 GridView 中的行值

    我需要在 asp net 3 5 中右对齐 gridview 列中的值 我怎样才能做到这一点
  • C++ 异步线程同时运行

    我是 C 11 中线程的新手 我有两个线程 我想让它们同时启动 我可以想到两种方法 如下 然而 似乎它们都没有按照我的预期工作 他们在启动另一个线程之前启动一个线程 任何提示将不胜感激 另一个问题是我正在研究线程队列 所以我会有两个消费者和
  • 访问者和模板化虚拟方法

    在一个典型的实现中Visitor模式 该类必须考虑基类的所有变体 后代 在许多情况下 访问者中的相同方法内容应用于不同的方法 在这种情况下 模板化的虚拟方法是理想的选择 但目前这是不允许的 那么 模板化方法可以用来解析父类的虚方法吗 鉴于
  • 如何确保应用程序在 Linux 上持续运行

    我试图确保脚本在开发服务器上保持运行 它会整理统计数据并提供网络服务 因此它应该会持续存在 但一天中有几次 它会因未知原因而消失 当我们注意到时 我们只需再次启动它 但这很麻烦 并且某些用户没有权限 或专有技术 来启动它 作为一名程序员 我
  • 在 2D 中将一个点旋转另一个点

    我想知道当一个点相对于另一个点旋转一定角度时如何计算出新的坐标 我有一个块箭头 想要将其相对于箭头底部中间的点旋转角度 theta 这是允许我在两个屏幕控件之间绘制多边形所必需的 我无法使用和旋转图像 从我到目前为止所考虑的情况来看 使问题
  • 如何重置捕获像素的值

    我正在尝试创建一个 C 函数 该函数返回屏幕截图位图中每四个像素的 R G 和 B 值 这是我的代码的一部分 for int ix 4 ix lt 1366 ix ix 4 x x 4 for int iy 3 iy lt 768 iy i
  • 如何使用 GOPATH 的 Samba 服务器位置?

    我正在尝试将 GOPATH 设置为共享网络文件夹 当我进入 export GOPATH smb path to shared folder I get go GOPATH entry is relative must be absolute
  • 如何挤出平面 2D 网格并赋予其深度

    我有一组共面 连接的三角形 即二维网格 现在我需要将其在 z 轴上挤出几个单位 网格由一组顶点定义 渲染器通过与三角形数组匹配来理解这些顶点 网格示例 顶点 0 0 0 10 0 0 10 10 0 0 10 0 所以这里我们有一个二维正方
  • 运算符“==”不能应用于“int”和“string”类型的操作数

    我正在编写一个程序 我想到了一个数字 然后计算机猜测了它 我一边尝试一边测试它 但我不断收到不应该出现的错误 错误是主题标题 我使用 Int Parse 来转换我的字符串 但我不知道为什么会收到错误 我知道它说 不能与整数一起使用 但我在网
  • 我在在线程序挑战编译器中遇到演示错误

    include
  • 用于 C# XNA 的 Javascript(或类似)游戏脚本

    最近我准备用 XNA C 开发另一个游戏 上次我在 XNA C 中开发游戏时 遇到了必须向游戏中添加地图和可自定义数据的问题 每次我想添加新内容或更改游戏角色的某些值或其他内容时 我都必须重建整个游戏或其他内容 这可能需要相当长的时间 有没
  • 带重定向标准流的 C# + telnet 进程立即退出

    我正在尝试用 C 做一个 脚本化 telnet 项目 有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向 和处理 其 stdin stdout 流 问题是 生成的 telnet 进程在
  • Googletest:如何异步运行测试?

    考虑到一个包含数千个测试的大型项目 其中一些测试需要几分钟才能完成 如果按顺序执行 整套测试需要一个多小时才能完成 通过并行执行测试可以减少测试时间 据我所知 没有办法直接从 googletest mock 做到这一点 就像 async选项
  • 错误:无效使用不完整类型“类 Move”/未定义对 Move::NONE 的引用

    拜托 我不知道为什么这个简单的代码被拒绝 它给了我 2 个编译错误 请帮帮我 I use 代码 块 20 03 我的编译器是GNU GCC 移动 hpp class Move public Move Move int int public

随机推荐