一文搞懂C语言中位域

2023-05-16

位域的定义和存在的意义

定义：允许在一个结构体中以位为单位来指定其成员长度，这种以位为单位的结构体成员称为“位段”或者“位域”
意义：有些信息在存储时，只需占几个或一个二进制位（bit），并不需要占用一个完整的字节。例如，在存放一个开关量时，只有0和1两种状态，用一位二进位即可。为了节省存储空间，并使处理简便，Ｃ语言提供了一种数据结构，称为“位域”或“位段”。

位域定义形式

struct 位域结构名 
{
 
 位域列表
 
};

位域列表定义形式

type [member_name] : width ;

关于位域列表中各个元素的描述：

元素	描述
type	C语言标准还规定，只有有限的几种数据类型可以用于位域。在 ANSI C 中，这几种数据类型是 int、signed int 和 unsigned int（int 默认就是 signed int）；到了 C99，_Bool 也被支持了。但编译器在具体实现时都进行了扩展，额外支持了 char、signed char、unsigned char 以及 enum 类型，所以上面的代码虽然不符合C语言标准，但它依然能够被编译器支持
member_name	位域的名称
width	位域中位的数量，宽度必须小于或等于指定类型的位宽度。

位域的使用

位域的使用和结构体成员的使用相同，

位域变量名.位域名
位域变量名->位域名 // 位域变量是个指针类型

举例：
在结构体定义时，我们可以指定某个成员变量所占用的二进制位数（Bit），这就是位域。

struct bs{
    unsigned m;
    unsigned n: 4;
    unsigned char ch: 6;
};

: 后面的数字用来限定成员变量占用的位数。成员 m 没有限制，根据数据类型即可推算出它占用 4 个字节（Byte）的内存。成员 n、ch 被 : 后面的数字限制，不能再根据数据类型计算长度，它们分别占用 4、6 位（Bit）的内存。
n、ch 的取值范围非常有限，数据稍微大些就会发生溢出，请看下面的例子：

#include <stdio.h>

int main(){
    struct bs{
        unsigned m;
        unsigned n: 4;
        unsigned char ch: 6;
    } a = { 0xad, 0xE, '$'};
    //第一次输出
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);
    //更改值后再次输出
    a.m = 0xb8901c;
    a.n = 0x2d;
    a.ch = 'z';
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);

    return 0;
}

运行结果：
0xad, 0xe, $
0xb8901c, 0xd, :

对于 n 和 ch，第一次输出的数据是完整的，第二次输出的数据是残缺的。
第一次输出时，n、ch 的值分别是 0xE、0x24（‘$’ 对应的 ASCII 码为 0x24），换算成二进制是 1110、10 0100，都没有超出限定的位数，能够正常输出。

第二次输出时，n、ch 的值变为 0x2d、0x7a（‘z’ 对应的 ASCII 码为 0x7a），换算成二进制分别是 10 1101、111 1010，都超出了限定的位数。超出部分被直接截去，剩下 1101、11 1010，换算成十六进制为 0xd、0x3a（0x3a 对应的字符是 :）。

我们可以这样认为，位域技术就是在成员变量所占用的内存中选出一部分位宽来存储数据。

位域的存储

C语言标准并没有规定位域的具体存储方式，不同的编译器有不同的实现，但它们都尽量压缩存储空间。
位域的具体存储规则如下：
1、当相邻成员的类型相同时，如果它们的位宽之和小于类型的 sizeof 大小，那么后面的成员紧邻前一个成员存储，直到不能容纳为止；如果它们的位宽之和大于类型的 sizeof 大小，那么后面的成员将从新的存储单元开始，其偏移量为类型大小的整数倍。
举例

#include <stdio.h>

int main(){
    struct bs{
        unsigned m:6;
        unsigned n: 12;
        unsigned p: 6;
    };
    printf("%d\n", sizeof(struct bs));

    return 0;
}

运行结果：
4
m、n、p 的类型都是 unsigned int，sizeof 的结果为 4 个字节（Byte），也即 32 个位（Bit）。m、n、p 的位宽之和为 6+12+4 = 22，小于 32，所以它们会挨着存储，中间没有缝隙。
sizeof(struct bs) 的大小之所以为 4，而不是 3，是因为要将内存对齐到 4 个字节，以便提高存取效率。

如果将成员 m 的位宽改为 22，那么输出结果将会是 8，因为 22+12 = 34，大于 32，n 会从新的位置开始存储，相对 m 的偏移量是 sizeof(unsigned int)，也即 4 个字节。

如果再将成员 p 的位宽也改为 22，那么输出结果将会是 12，三个成员都不会挨着存储。

2、相邻成员类型不同时，不同的编译器有不同的实现方案，GCC 会压缩存储，而 VC/VS 不会。

#include <stdio.h>

int main(){
    struct bs{
        unsigned m: 12;
        unsigned char ch: 4;
        unsigned p: 4;
    };
    printf("%d\n", sizeof(struct bs));

    return 0;
}

在 GCC 下的运行结果为 4，三个成员挨着存储；在 VC/VS 下的运行结果为 12，三个成员按照各自的类型存储（与不指定位宽时的存储方式相同）。

3、如果成员之间穿插着非位域成员，那么不会进行压缩。举例：

struct bs{
    unsigned m: 12;
    unsigned ch;
    unsigned p: 4;
};

在各个编译器下 sizeof 的结果都是 12。
通过上面的分析，我们发现位域成员往往不占用完整的字节，有时候也不处于字节的开头位置，因此使用&获取位域成员的地址是没有意义的，C语言也禁止这样做。地址是字节（Byte）的编号，而不是位（Bit）的编号。

参考链接：
C语言位域（位段）详解
什么是位域？位域如何定义?一般什么时候使用？
聊一聊C语言位域/位段

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一文搞懂

语言中位域