C 二进制文件与文本文件的效率

2024-02-10

我是 C 语言新手,我需要一些帮助。 假设我只需要在文件中存储 6 位数字。 (假设 int 的大小等于 4) 使用文本文件或二进制文件哪个更有效(就内存而言)?我不太确定如何面对这个问题,欢迎任何帮助


大多数人将文件分为两类:二进制文件和 ASCII(文本)文件。实际上,您两者都曾合作过。您编写的任何程序 (C/C++/Perl/HTML) 几乎肯定是 ASCII 文件。

ASCII 文件被定义为由 ASCII 字符组成的文件。它通常是使用 emacs、pico、vi、记事本等文本编辑器创建的。有一些更高级的编辑器可用于编写代码,但它们可能并不总是将其保存为 ASCII。 ASCII 是国际标准。

计算机科学就是创造良好的抽象。有时会成功,有时则不会。好的抽象就是呈现用户可以使用的世界视图。最成功的抽象之一是文本编辑器。

当您编写程序并输入注释时,很难想象这些信息不会被存储为字符。 ASCII/文本文件实际上存储为 0 和 1。

文件存储在磁盘上,磁盘有某种方式来表示 1 和 0。我们仅仅将它们称为 1 和 0,因为这也是一种抽象。无论使用什么方式将 0 和 1 存储在磁盘上,我们并不关心,只要我们能这样思考即可。

实际上,ASCII 文件基本上是二进制文件,因为它们存储二进制数。也就是说,ASCII 文件存储 0 和 1。

ASCII 和二进制文件之间的区别?

ASCII 文件是存储 ASCII 代码的二进制文件。回想一下,ASCII 代码是存储在字节中的 7 位代码。更具体地说,有 128 种不同的 ASCII 码,这意味着只需要 7 位即可表示一个 ASCII 字符。

然而,由于最小可用大小为 1 字节,因此这 7 位是任何字节的低 7 位。最高有效位是 0。这意味着,在任何 ASCII 文件中,您都浪费了 1/8 的位。特别是,每个字节的最高有效位没有被使用。

尽管 ASCII 文件是二进制文件,但有些人将它们视为不同类型的文件。我喜欢将 ASCII 文件视为特殊类型的二进制文件。它们是二进制文件,其中每个字节都以 ASCII 代码编写。

完整的通用二进制文件没有这样的限制。任何 256 位模式都可以在二进制文件的任何字节中使用。

我们一直使用二进制文件。可执行文件、目标文件、图像文件、声音文件和许多文件格式都是二进制文件。它们之所以成为二进制,仅仅是因为二进制文件的每个字节都可以是 256 位模式之一。它们不限于 ASCII 代码。 ASCII 文件示例

假设您正在使用文本编辑器编辑文本文件。因为您使用的是文本编辑器,所以您几乎是在编辑 ASCII 文件。在这个全新的文件中,您输入“cat”。也就是说,字母“c”,然后是“a”,然后是“t”。然后,保存文件并退出。

会发生什么?目前,我们不关心打开文件、修改文件和关闭文件的机制。相反,我们关心的是 ASCII 编码。

如果您查找 ASCII 表,您会发现 ASCII 代码为 0x63、0x61、0x74(0x 仅表示这些值是十六进制,而不是十进制/以 10 为基数)。

Here's how it looks:
ASCII   'c'        'a'          't'
Hex     63          61          74
Binary  0110 0011   0110 0001   0111 1000

每次输入 ASCII 字符并保存时,都会写入与该字符相对应的整个字节。这包括标点符号、空格等。

因此,当您键入“c”时,它会以 0110 0011 的形式保存到文件中。

现在,有时文本编辑器会输入您可能意想不到的字符。例如,一些编辑器“坚持”每行以换行符结尾。

文件唯一可能在行尾缺少换行符的地方是最后一行。有些编辑器允许最后一行以除换行符之外的其他字符结尾。一些编辑器在每个文件末尾添加换行符。

不幸的是,即使换行符也不是普遍标准。在 UNIX 文件上使用换行符很常见,但在 Windows 中,通常使用两个字符来结束每一行(回车符、换行符,我相信是 \r 和 \n)。当只需要一个字符时为什么要使用两个字符?

这可以追溯到打印机。在过去,打印机返回到行首所花费的时间等于键入两个字符所花费的时间。因此,在文件中放置了两个字符,以便打印机有时间将打印机球移回行首。

这个事实并不那么重要。大部分都是琐事。我之所以提出这个问题,是为了防止您想知道为什么将文件从 Windows 传输到 UNIX 有时会生成有趣的字符。 编辑二进制文件 既然您知道在 ASCII 文件中键入的每个字符都对应于文件中的一个字节,您可能会理解为什么编辑二进制文件很困难。

如果您想编辑二进制文件,您确实想编辑各个位。例如,假设您想编写二进制模式 1100 0011。您会如何执行此操作?

您可能很天真,在文件中输入以下内容:

11000011

但现在您应该知道,这并不是编辑文件的各个部分。如果您输入“1”和“0”,则实际上输入的是 0x49 和 0x48。也就是说,您要在文件中输入 0100 1001 和 0100 1000。您实际上一次(间接)输入 8 位。

有些程序允许您输入 49,并将其转换为单个字节 0100 1001,而不是表示“4”和“9”的 ASCII 代码。您可以将这些程序称为十六进制编辑器。不幸的是,这些可能并不那么容易获得。编写一个程序并不太难,该程序读取看起来像十六进制对的 ASCII 文件,然后将其转换为具有相应位模式的真正的二进制文件。

也就是说,它需要一个如下所示的文件:

63 a0 de

并将该 ASCII 文件转换为以 0110 0011 开头(二进制为 63)的二进制文件。请注意,该文件是 ASCII,这意味着真正存储的是“6”、“3”、“ ”(空格)、“a”、“0”等的 ASCII 代码。程序可以读取此 ASCII 文件,然后生成适当的二进制代码并将其写入文件。

因此,ASCII 文件可能包含 8 个字节(6 个字符,2 个空格),输出二进制文件将包含 3 个字节,每个十六进制对一个字节。

写入二进制文件

为什么人们仍然使用二进制文件?原因之一是紧凑性。例如,假设您要写入数字 100000。如果您以 ASCII 键入它,则需要 6 个字符(即 6 个字节)。但是,如果将其表示为无符号二进制,则可以使用 4 个字节将其写出。

ASCII 很方便,因为它往往是人类可读的,但它会占用大量空间。您可以使用二进制文件更紧凑地表示信息。

例如,您可以做的一件事是将对象保存到文件中。这是一种序列化。要将其转储到文件,可以使用 write() 方法。通常,您将指向对象的指针和用于表示该对象的字节数(使用 sizeof 运算符来确定)传递给 write() 方法。然后,该方法将内存中出现的字节转储到文件中。

然后,您可以从文件中恢复信息并将其放入对象中,方法是使用相应的 read() 方法,该方法通常采用指向对象的指针(并且它应该指向已分配内存的对象,无论是静态还是动态)已分配)和对象的字节数,并将字节从文件复制到对象中。

当然,你必须小心。如果您使用两种不同的编译器,或者将文件从一种机器传输到另一种机器,则此过程可能不起作用。特别地,对象可以不同地布置。这可以像字节顺序一样简单,也可能存在填充问题。

这种将对象保存到文件的方法既简单又好用,但可能不太便携。此外,它相当于浅复制。如果您的对象包含指针,它将把地址写到文件中。这些地址可能完全没有意义。地址在程序运行时可能有意义,但如果退出并重新启动,这些地址可能会改变。

这就是为什么有些人发明了自己的对象存储格式:以提高可移植性。

但是,如果您知道您没有存储包含指针的对象,并且您在编写该文件的同一类型计算机系统上读取该文件,并且您使用相同的编译器,那么它应该可以工作。

这是人们有时更喜欢写出整数、字符等而不是整个对象的原因之一。它们往往更便携。

ASCII 文件是由 ASCII 字符组成的二进制文件。 ASCII 字符是存储在一个字节中的 7 位编码。因此,ASCII 文件的每个字节的最高有效位都设置为 0。将 ASCII 文件视为一种特殊类型的二进制文件。

通用二进制文件使用全部 8 位。二进制文件的每个字节可以具有完整的 256 个位串模式(与仅具有 128 个位串模式的 ASCII 文件相反)。

也许有一天,Unicode 文本文件会变得更加流行。但目前,ASCII 文件是文本文件的标准格式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

C 二进制文件与文本文件的效率 的相关文章

随机推荐