数据在内存中的存储

2023-05-16

数据在内存中的存储

文章目录

数据在内存中的存储
- 计算机中的数据
- 数据类型
- - 类型的基本归类
  - 整型在内存中的存储
  - 原码、反码、补码
  - 大小端介绍
  - 浮点型在内存中的存储
  - 二进制与十进制的转换

计算机要处理的信息是多种多样的，如数字、文字、符号、图形、音频、视频等，这些信息在人们的眼里是不同的。但对于计算机来说，它们在内存中都是一样的，都是以二进制的形式来表示。
内存条是一个非常精密的部件，包含了上亿个电子元器件，它们很小，达到了纳米级别。这些元器件，实际上就是电路；电路的电压会变化，要么是 0V，要么是 5V，只有这两种电压。5V 是通电，用1来表示，0V 是断电，用0来表示。所以，一个元器件有2种状态，0 或者 1。

通过电路来控制这些元器件的通断电，会得到很多0、1的组合。例如，8个元器件有 2^8=256 种不同的组合，16个元器件有 2^16=65536 种不同的组合。虽然一个元器件只能表示2个数值，但是多个结合起来就可以表示很多数值了。

一般情况下我们不一个一个的使用元器件，而是将8个元器件看做一个单位，即便是表示很小的数，例如 1，也需要8个，也就是 00000001。

1个元器件称为1比特（Bit）或1位，8个元器件称为1字节（Byte），那么16个元器件就是2Byte，32个就是4Byte，以此类推：

8×1024 Bit就是1024Byte，简写为1KB；
8×1024×1024 Bit就是1024KB，简写为1MB；
8×1024×1024×1024 Bit就是1024MB，简写为1GB。

现在，你知道1GB的内存有多少个元器件了吧。我们通常所说的文件大小是多少 KB、多少 MB，就是这个意思。

单位换算：

1Byte = 8 Bit
1KB = 1024Byte = 2^10Byte
1MB = 1024KB = 2^20Byte
1GB = 1024MB = 2^30Byte
1TB = 1024GB = 2^40Byte
1PB = 1024TB = 2^50Byte
1EB = 1024PB = 2^60Byte

我们平时使用计算机时，通常只会设计到 KB、MB、GB、TB 这几个单位，PB 和 EB 这两个高级单位一般在大数据处理过程中才会用到。

在内存中没有abc这样的字符，也没有gif、jpg这样的图片，只有0和1两个数字，计算机也只认识0和1。所以，计算机使用二进制，而不是我们熟悉的十进制，写入内存中的数据，都会被转换成0和1的组合。

计算机中的数据

在这里插入图片描述

正如大家所看到的，我们所使用的数据在计算机内存中是以二进制位序列的方式存放的；如图中的…0000001000000000000000000000000011001100…；在这些二进制位序里，每一位上的数字，不是0就是1。在计算机中，位（bit）是含有0或1值的一个单位。在物理上，它的值是一个负或正电荷。也就是计算机中可以通过电压的高低来表示一位所含有的值。如果是0，则用低电压表示，如果是1，则用高电压表示。

在上面的二进制位序这个层次上，位的集合没有结构，很难来解释这些系列的意义。为了能够从整体上考虑这些位，于是给这些位序列强加上结构的概念，这样的结构被称作字节（byte）和字（word）。通常，一个字节由8位构成，而一个字由32位构成，即4个字节（也可能是8字节）。

数据类型

基本的内置类型：
    char		//字符数据类型
    short		//短整型
    int 		//整型
    long		//长整型
    long long   //更长的整型
    float		//单精度浮点型
    double		//双精度浮点型
    //C语言中没有字符串类型

类型意义：

使用这个类型开辟内存空间的大小（大小决定了使用范围）

例如：char c决定了c的范围只能在-128~127之间

如何看待内存空间的视角

在这里插入图片描述

如图所示，a和b在内存中的存储情况，图中a也是4字节的(漏圈了后面的00 00)；a和b都是10，但在内存中的存储却不一样，主要是因为整型和浮点型在内存中的存储形式不同导致的。

类型的基本归类

整型家族

char 
    		unsigned char
    		signed char
short
    		unsigned short [int]
    		signed short [int]
int 
    		unsigned int
    		signed int 
long
    		unsigned long [int]
    		signed long [int]

浮点数家族

float
double

结构类型

数组类型 int[5]   -----  int arr[10]的类型为int[10]
结构体类型 struct
枚举类型 enum
联合类型 union

指针类型

int *pi
char *pc
float *pf
void *pv

空类型

void表示空类型（无类型）

通常应用于函数的返回类型、函数的参数、指针类型

整型在内存中的存储

一个变量的创建是要在内存中开辟空间的。空间的大小是根据不同的类型而决定的。

比如：
    int a = 20;
	int b = -10;

我们知道要为a分配四个字节的空间，那要如何来存储a的数值呢？

整数类型数据在内存中是以补码的形式进行存储，浮点型数据以分段式进行存储

原码、反码、补码

计算机中有符号整型有三种表示方法，即原码、反码和补码；

三种表示方法均有符号位和数值位两部分，符号位都是0表示正，1表示负，而数值位三种表示方法各不相同。

在内存中，有符号整数是以补码的形式进行存储，而无符号整数则存储自身的绝对值。

原码

直接将数值按照正负数的形式翻译成二进制就可以

反码

将原码的符号位不变，其它位依次按位取反就可以得到

补码

反码+1就得到补码

正数的原、反、补码都相同

对于有符号整型来说，数据存放内存中其实存放的就是补码；在计算机系统中，数值一律用补码来表示和存储。原因在于，使用补码，可以将符号位和数值域统一处理；同时，加法和减法也可以统一处理（CPU只有加法器），如果两个补码相加时最高位（符号位）有进位，则进位被舍弃。此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

看一下变量在内存中的存储情况

在这里插入图片描述

可以看到对于a和b分别存储的都是补码（不同变量在内存中的存储是无规律的，哪里有足够的空间就存在哪里，要靠地址才能找到数据），只是字节存储的顺序感觉不太对，我们存储的数据是0x0000000a,而在内存中却成了0x0a000000;因为我的电脑是小端存储模式。

大小端介绍

大端（存储）模式：指数据的低位保存在内存的高地址中，而数据的高位保存在内存的低地址中；

小端（存储）模式：指数据的低位保存在内存的低地址中，而数据的高位保存在内存的高地址中。

为什么有大端和小端

因为在计算机系统中，是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8bit。但是在C语言中除了8bit的char之外，还有16bit的short型，32bit的long型（要看具体的编译器），

如果只是存储char类型，当然就不需要考虑大小端问题，当如果存储short类型或者大于2个字节的其它类型，就需要考虑是将高字节存在前面还是将低字节存在前面，为了应对这种多字节安排问题，就产生了大端模式和小端模式。

实际上并不是只存在大端模式和小端模式，例如0x11223344，我们采用11 22 33 44这种大端存储模式，也可以采用44 33 22 11这种小端存储模式，但还可以22 11 44 33、33 44 11 22等等，这是一个排序问题，但相比于其它的存储模式，大小端存储模式更有意义，以至于被我们所学习。

例如一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为高字节， 0x22为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x10 中， 0x22 放在高地址中，即 0x00中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

在这里插入图片描述

从内存中取数据时一定是从低地址位向高地址位取

例如：如果在大端存储模式下运行一下代码：
int i = 1;
char c = i;
printf("%d",c)；
输出结果为：0

因为1在内存中的存储为：00 00 00 01，将i赋给c时，c为0x00；c在内存中为：00 00 00 00；以%d格式输出为0.

大小端的优点

大端排序的好处是接收数据的程序可以优先得到数据的最高位，以便快速反应。

在串行通信测试程序中，计算机显示的字节顺序一般就是接收顺序。如果用大端编码的话，测试程序直接就可以显示出从大到小排列好的数据。而小端排序的方向相反，可视性不好，容易看花眼掉。

结论：
  1. **串行通信（包括以太网、WIFI、串口、USB等）如果采用大端编码有时会使系统响应更快速。**
  2. **串行通信采用大端编码有利于调试。**

小端排序下，选定一个数据的起点后，只需要重复进位加法就可以实现高精度加法计算。减法也是一样。数组的第0位固定是最低位。而大端方式下，如果高精度计算的精度可变，就很难确定数组的第0位到底代表多大。不同精度的计算还会产生数据对齐问题。比如早期的16位CPU中，int类型和long类型做加法，用小端排序就很容易从指针位置开始计算。而大端排序则非常复杂。加法运算是非常常用的运算，其性能直接影响程序的整体性能。所以CPU中要采用性能较好的小端排序。

由于CPU本身是小端排序，如果内存和文件也采用小端排序的话，就可以把文件中的数据直接存储到内存中，再直接把内存中的数据存储到CPU的寄存器。这样不仅提高计算机的性能，程序也变得简单。

结论是：所有直接与硬件有关的代码都适合按小端排序

原文链接：https://blog.csdn.net/recclay/article/details/78986545

相关习题

在这里插入图片描述

-1的原码为10000000 00000000 00000000 00000001，

补码为11111111 11111111 11111111 11111111；

因为a，b，c都为char类型，所以存放到a,b,c中的二进制数就取-1补码的低字节1111 1111；而当使用%d整型打印时，需要对a,b,c进行整型提升，a,b为有符号数，提升时补符号位，即：11111111 11111111 11111111 11111111，%d意思是认为内存中存的是有符号整数，需要转为原码输出为-1；而c为无符号char，提升补0，即：00000000 00000000 00000000 11111111；输出为255.

在这里插入图片描述

-128的二进制表示为10000000 00000000 00000000 10000000

在内存中的存储为 11111111 111111111 11111111 10000000；

因为a为char类型，只能存8个位，所以a为：1000 0000;由于要以%u的格式输出，默认内存中的数据为无符号整型，需要对a进行整型提升，因为a为有符号数，提升时补符号位：11111111 11111111 11111111 10000000；直接输出为FFFFFF80.

在这里插入图片描述

128在内存中为00000000 00000000 00000000 10000000；a为char：10000000；以%u的格式输出，对a进行整型提升：11111111 11111111 11111111 10000000；直接输出为FFFFFF80.

在这里插入图片描述

-20在的二进制表示：10000000 00000000 00000000 00010100，

在内存中为：11111111 11111111 11111111 11101100；

所以i为整型：11111111 11111111 11111111 11101100；

10在内存中为：00000000 00000000 00000000 00001010，

所以j为整型：00000000 00000000 00000000 00001010；

i+j为：11111111 11111111 11111111 11110110；以%d格式输出，默认内存中为有符号整型，转为原码为： 10000000 00000000 00000000 00001010；即为-10.

在这里插入图片描述

因为i为无符号整型，不存在负数，当i为0再减1时，i为4294967295.所以i永远不会小于0，为死循环。

在这里插入图片描述

字符数组明明有1000个数值，但算出来的结果为什么只有255个？

其实a数组的确拥有1000个数值，但由于strlen函数是用来计算字符串长度的，将以\0结尾的字符串作为一个字符串处理，\0的ASCII码为0；而a数组的存储数值为-1、-2、…、-128、127、126、…、1、0、-1、-2…;刚好a[255]为0，strlen函数到这里就截止了，算出来的长度为255，a[255]=0没有算到长度里面。

PS：如果这里赋值给a数组的为‘0’而不是0，那结果将不一样，因为‘0’的ASCII码为48，而strlen函数需要遇到ASCII码为0即内存中的数值为0时才会结束字符串长度的计算。

在这里插入图片描述

会陷入死循环，因为无符号字符类型的最大值为255，是不可能大于255的。

浮点型在内存中的存储

常见的浮点数：

3.14159 1E10浮点数家族包括：float、double、long、long double类型。浮点数表示的范围：float.h中定义浮点数存储的例子：

浮点数在内存中的存储形式

根据国际标准IEEE(电气和电子工程协会)754，任意一个二进制浮点数V可以由符号位、指数位和尾数位三部分组成；表示成下面的形式：

(-1)^S * M * 2^E

(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数。

M为尾数位，表示有效数字，大于等于1，小于2。

E表示指数位。

举例来说：

十进制的5.0，写成二进制是 101.0 ，相当于 1.01×2^2 。那么，按照上面V的格式，可以得出s=0，M=1.01，E=2。

十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。那么，s=1，M=1.01，E=2。

IEEE 754规定：对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

在这里插入图片描述

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

在这里插入图片描述

IEEE 754对有效数字M和指数E，还有一些特别规定。前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。

IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。

比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。

以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字

至于指数E，情况就比较复杂。

首先，E为一个无符号整数（unsigned int）这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1024。比如，2^10的E 是10，所以保存成32位浮点数时，必须保存10+127=137，即10001001。

然后，指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1
这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。比如： 0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，

则为1.0*2^(-1)，其阶码为-1+127=126，表示为01111110，而尾数1.0去掉整数部分为0，补齐0到23位00000000000000000000000，则其二进制表示形式为:
0 01111110 00000000000000000000000
E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

因为某些有限的十进制小数转换二进制小数表示并储存后,其尾数位为无限循环;故很多浮点型数据是不精准的 , 有误差
在这里插入图片描述

n和 *pFloat 在内存中明明是同一个数，为什么浮点数和整数的解读结果会差别这么大？

要理解这个结果，一定要搞懂浮点数在计算机内部的表示方法。
为什么 0x00000009 还原成浮点数，就成了 0.00000000 ？首先，将 0x00000009 拆分，得到第一位符号位s=0，后面8位的指数 E=00000000 ，最后23位的有效数字M=000 0000 0000 0000 0000 1001。
9 -> 0000 0000 0000 0000 0000 0000 0000 1001
由于指数E全为0，所以符合下面所讲内容的第二种情况。因此，浮点数V就写成： V=(-1)^0 × 0.0000 0000 0000 0000 0001 001×2^^(-126) =1.001×2^^(-146)显然，V是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000。

再看例题的第二部分。请问浮点数9.0，如何用二进制表示？还原成十进制又是多少？首先，浮点数9.0等于二进制的1001.0，即1.001×2^3。
9.0 -> 1001.0 ->(-1)^0 1.001 2^3 -> s=0, M=1.001,E=3+127=130
那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。所以，写成二进制形式，应该是s+E+M，即
0 10000010 001 0000 0000 0000 0000 0000
这个32位的二进制数，还原成十进制，正是** 1091567616 **。

二进制与十进制的转换

整数部分：

二进制转为十进制:

1010 –> 1*2³+0+1*2¹+0 = 10

在这里插入图片描述

十进制转为二进制：

10 -> 1010

在这里插入图片描述

小数部分：

0.25 –> 0.01

在这里插入图片描述

0.01–>0.25

在这里插入图片描述

我目前也还处于学习C语言阶段，如果有那部分内容理解得不对的，希望各位指正一下。

参考引用：http://c.biancheng.net/view/1726.html

其它文章：
>>cmake
>>Markdown学习笔记
>>标准输入输出函数
>>printf源码

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)