既然C编译器是C语言写的,那第一个C编译器是怎样来的?

2023-05-16

640?wx_fmt=jpeg

来源:伯乐在线,作者:Chaobs

首先向C语言之父Dennis Ritchie致敬!

当今几乎所有的实用的编译器/解释器(以下统称编译器)都是用C语言编写的,有一些语言比如Clojure,Jython等是基于JVM或者说是用Java实的,IronPython等是基于.NET实现的,但是Java和C#等本身也要依靠C/C++来实现,等于是间接调用了C。所以衡量某种高级语言的可移植性其实就是在讨论ANSI/ISO C的移植性。

C语言是很低级的语言,很多方面都近似于汇编语言,
在《Intel 32位汇编语言程序设计》一书中,甚至介绍了手工把简单的C语言翻译成汇编的方法。对于编译器这种系统软件,用C语言来编写是很自然不过的,即使是像Python这样的高级语言依然在底层依赖于C语言(举Python的例子是因为Intel的黑客正在尝试让

Python不需要操作系统就能运行——实际上是免去了BIOS上的一次性C代码)。现在的学生,学过编译原理后,只要有点编程能力的都可以实现一个功能简单的类C语言编译器。

可是问题来了,不知道你有没有想过,大家都用C语言或基于C语言的语言来写编译器,那么世界上第一个C语言编译器又是怎么编写的呢?这不是一个“鸡和蛋”的问题……

因此第一个C语言编译器的原型完全可能是用B语言或者混合B语言与PDP汇编语言编写的。

640?wx_fmt=jpeg

(图片来源:C语言与程序设计 )

所以早期的C语言编译器就采取了一个取巧的办法:先用汇编语言编写一个C语言的一个子集的编译器,再通过这个子集去递推完成完整的C语言编译器。详细的过程如下:

先创造一个只有C语言最基本功能的子集,记作C0语言,C0语言已经足够简单了,可以直接用汇编语言编写出C0的编译器。依靠C0已有的功能,设计比C0复杂,但仍然不完整的C语言的又一个子集C1语言,其中C0属于C1,C1属于C,用C0开发出C1语言的编译器。在C1的基础上设计C语言的又一个子集C2语言,C2语言比C1复杂,但是仍然不是完整的C语言,开发出C2语言的编译器……如此直到CN,CN已经足够强大了,这时候就足够开发出完整的C语言编译器的实现了。至于这里的N是多少,这取决于你的目标语言(这里是C语言)的复杂程度和程序员的编程能力——简单地说,如果到了某个子集阶段,可以很方便地利用现有功能实现C语言时,那么你就找到N了。下面的图说明了这个抽象过程:

C语言
CN语言
……
C0语言
汇编语言
机器语言

那么这种大胆的子集简化的方法,是怎么实现的,又有什么理论依据呢?

先介绍一个概念, “自编译” Self-Compile ,也就是对于某些具有明显自举性质的强类型(所谓强类型就是程序中的每个变量必须声明类型后才能使用,比如C语言,相反有些脚本语言则根本没有类型这一说法)编程语言,可以借助它们的一个有限小子集,通过有限次数的递推来实现对它们自身的表述,这样的语言有C、Pascal、Ada等等,至于为什么可以自编译,可以参见清华大学出版社的《编译原理》,书中实现了一个Pascal的子集的编译器。

总之,已经有计算机科学家证明了,C语言理论上是可以通过上面说的CVM的方法实现完整的编译器的,那么实际上是怎样做到简化的呢?

这张图是不是有点熟悉?对了就是在讲虚拟机的时候见到过,不过这里是CVM(C Language Virtual Machine),每种语言都是在每个虚拟层上可以独立实现编译的,并且除了C语言外,每一层的输出都将作为下一层的输入(最后一层的输出就是应用程序了),这和滚雪球是一个道理。用手(汇编语言)把一小把雪结合在一起,一点点地滚下去就形成了一个大雪球,这大概就是所谓的0生1,1生C,C生万物吧?

下面是C99的关键字:

auto        enum        restrict        unsigned	
break       extern      return          void	
case        float       short           volatile	
char        for         signed          while	
const       goto        sizeof          _Bool	
continue    if          static          _Complex	
default     inline      struct          _Imaginary	
do          int         switch       	
double      long        typedef	
else        register    union	
//共37个

仔细看看,其实其中有很多关键字是为了帮助编译器进行优化的,还有一些是用来限定变量、函数的作用域、链接性或者生存周期(函数没有)的,这些在编译器实现的早期根本不必加上,于是可以去掉auto, restrict, extern, volatile, const, sizeof, static, inline, register, typedef,这样就形成了C的子集,C3语言,C3语言的关键字如下:

enum       unsigned	
break       return      void	
case        float       short  	
char        for         signed     while	
goto        _Bool	
continue    if          _Complex	
default     struct      _Imaginary	
do          int         switch       	
double      long   	
else        union	
//共27个

再想一想,发现C3中其实有很多类型和类型修饰符是没有必要一次性都加上去的,比如三种整型,只要实现int就行了,因此进一步去掉这些关键词,它们是:unsigned, float, short, char(char 是 int), signed, _Bool, _Complex, _Imaginary, long,这样就形成了我们的C2语言,C2语言关键字如下:

enum	
break      return      void	
case	
for         while	
goto       	
continue    if        	
default     struct   	
do          int         switch       	
double 	
else        union	
//共18个

继续思考,即使是只有18个关键字的C2语言,依然有很多高级的地方,比如基于基本数据类型的复合数据结构,另外我们的关键字表中是没有写运算符的,在C语言中的复合赋值运算符->、运算符的++、– 等过于灵活的表达方式此时也可以完全删除掉,因此可以去掉的关键字有:enum, struct, union,这样我们可以得到C1语言的关键字:

break      return      void	
case	
for         while	
goto       	
continue    if        	
default 	
do          int         switch       	
double 	
else	
//共15个

接近完美了,不过最后一步手笔自然要大一点。这个时候数组和指针也要去掉了,另外C1语言其实仍然有很大的冗杂度,比如控制循环和分支的都有多种表述方法,其实都可简化成一种,具体的来说,循环语句有while循环,do…while循环和for循环,只需要保留while循环就够了;分支语句又有if…{}, if…{}…else, if…{}…else if…, switch,这四种形式,它们都可以通过两个以上的if…{}来实现,因此只需要保留if,…{}就够了。可是再一想,所谓的分支和循环不过是条件跳转语句罢了,函数调用语句也不过是一个压栈和跳转语句罢了,因此只需要goto(未限制的goto)。因此大胆去掉所有结构化关键字,连函数也没有,得到的C0语言关键字如下:

break    void	
goto       	
int    	
double 	
//共5个

这已经是简约的极致了。

只有5个关键字,已经完全可以用汇编语言快速的实现了。通过逆向分析我们还原了第一个C语言编译器的编写过程,也感受到了前辈科学家们的智慧和勤劳!我们都不过是巨人肩膀上的灰尘罢了!0生1,1生C,C生万物,实在巧妙!

640?

5.

640?wx_fmt=gif

免责声明:本文系网络转载,版权归原作者所有。如涉及作品版权问题,请与我们联系,我们将根据您提供的版权证明材料确认版权并支付稿酬或者删除内容。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

既然C编译器是C语言写的,那第一个C编译器是怎样来的? 的相关文章

  • linux安装anaconda3

    wget https repo anaconda com archive Anaconda3 2020 11 Linux x86 64 sh sh Anaconda3 2020 11 Linux x86 64 sh xff08 一路回车和y
  • linux安装zookeeper单点

    需要有jdk环境 安装java yum list java 1 8 yum install java 1 8 0 openjdk y 下载地址 http zookeeper apache org wget tar zvxf zookeepe
  • CAN总线网络的传输模式

    CAN总线网络的传输模式根据触发条件的不同 xff0c 在车身CAN网络中可分为事件型 周期性及混合型三种传输模式 xff1b 1 事件型传输模式 xff1a 随着类型或数据的转变及时发送的消息 此类型消息的好处是极少占用总线资源 xff0
  • matlab中m文件的命名规则

    matlab的m文件的命名规则 xff1a 1 文件名命名要用英文字符 xff0c 首字符不能是数字或下划线 xff1b 2 文件名不能与matlab的内部函数名相同 m文件名的命名尽量不要是简单的英文单词 xff0c 最好是由大小写英文
  • 2014去哪儿校招笔试

    共 3 43 2 43 2 个题 开发 前3 个必做 xff0c 其他选做 测试或web 开发 前 2 个必做 43 另外 2 个必做 1 字符串split 43 翻转 2 实现 访问历史记录 xff0c insert next pre 3
  • MicroStrategy笔试

    1 coding判定二叉树是否是有序二叉树 2 一个有序数组A xff08 buffer 足够大 xff09 xff0c 和一个有序数组 B xff0c 设计算法 xff0c merge 两个数组后有序 xff0c 不使用任何额外的内存空间
  • 欢迎使用CSDN-markdown编辑器

    能力培养 与team leader讨论 xff0c 大抵将能力培养分成三类 业务能力 解决具体反馈的问题 xff1b 总结通用的解决方案 xff1b 从根本上改善根本问题技术能力 设计架构的能力 xff0c 注重性能的改善泛化能力 明确问题
  • 一些5G整理

    鲁棒性 设计 相对于终端成本 xff0c 网络掉线的损失是行业客户是不可接受的 xff0c 所以行业终端鲁棒性设计很重要 这里的鲁棒性是指排除了前述的散热 环境可靠性等自身设计后面对其他突发未知情况的还能可靠应用的能力 业内对于鲁棒性的设计
  • ES设置多个自定义分词器,每个分词器使用不同的词库

    ES中如何设置自定义分词器并且每个分词器使用自己定义的词库 xff1f 1 首先在ansj cfg yml中配置 然后在ansj library properties文件中添加词典放置路径 ansj library properties和l
  • 开发原则

    1 提供完整的数据 xff0c 不需要调用者进行额外的处理 2 测试 xff0c 保证比较对象要都是真实正确的 3 以业务需求为驱动 xff0c 兼顾系统架构升级
  • Windows下多台电脑共享剪切板的方法

    转自于 http www microsoft com china MSDN library WebServices WebServices WebServices mspx mfr 61 true
  • Cisco Packet Tracer模拟器使用

    第一篇 熟悉界面 一 设备的选择与连接 在界面的左下角一块区域 xff0c 这里有许多种类的硬件设备 xff0c 从左至右 xff0c 从上到下依次为路由器 交换机 集线器 无线设备 设备之间的连线 xff08 Connections xf
  • 各种路由器接口与连接方法

    转自于 http bbs pcsoft com cn thread 138952 1 4 html 路由器所在的网络位置比较复杂 xff0c 既可是内部子网边缘 xff0c 也可位于内 外部网络边缘 同时为了实现强大的适用性 xff0c 它
  • line vty 0 4 什么意思

    转自于 http hi baidu com rxlly blog item 9072bc397ae18bde7c1e71f6 html line vty 0 4是不是指启用5个telnet会话的意思 xff1f 那line vty 0 0是
  • matlab实现牛顿迭代法求解非线性方程组

    http hi baidu com aillieo blog item 0800e2a10ac9a59647106493 html 已知非线性方程组如下 3 x1 cos x2 x3 1 2 61 0 x1 2 81 x2 43 0 1 2
  • 区别 chown和chmod的用法

    本人总是习惯使用chmod xff0c 而把chown混淆 chown就是修改 第一列内容的 xff0c chmod是修改 第3 4列内容的 chown用法 用来更改某个目录或文件的用户名和用户组的 chown 用户名 组名 文件路径 xf
  • Linux中安装新的包时错误提示

    错误1 E Could not open lock file var lib dpkg lock open 13 Permission denied E Unable to lock the administration directory
  • django框架简介

    主要内容 1 Django框架发展 2 Django架构 MTV模式 3 开发流程 4 开发实例 Poll python下各种框架 一个完整的Web应用框架包括下面功能的支持 服务发布 URL分发 模板支持 数据库处理 Python框架一般
  • 用VirtualBox打开VMware创建的虚拟机的方法

    方法一 xff1a 用VMware7 0以上版本 xff0c 自带的 ovftool exe 工具将 vmx 文件转化成 ovf 文件 命令格式 xff1a ovftool vmx文件完整路径 要存放ovf 文件的路径 注意 xff1a 源
  • 松灵学院 | 在松灵 LIMO 上使用 Docker 进行 ROS2 开发

    截至目前 xff0c Jetson Nano 平台官方仍不提供 Ubuntu 20 04 固件 xff0c 所以使用 Jetson Nano 平台开发 ROS2 存在巨大的困难 xff0c 但是好在 Docker 提供的容器技术 xff0c

随机推荐

  • 2019学习计划

    1 数据结构与算法 2 架构设计
  • ORB-SLAM(1) --- 让程序飞起来

    1 ORB SLAM简介 ORBSLAM是15年出的比较完备的单目slam算法 xff0c orb指的是一种旋转不变性特征 xff0c 整个算法均是基于orb特征实现的 xff0c 不同于基于稠密或半稠密地图的slam orbslam是一个
  • 再论文件系统

    2012 03 21 19 58 分类 xff1a File System 概述 关于 Linux 首先我们要了解的是其分区管理模式 xff0c 与 Windows 不同的是 Linux 是一个树形的目录结构 xff0c 无论怎么分区 xf
  • httpd服务器Failed to start httpd.service: Unit httpd.service is masked.解决办法

    当我们启动httpd服务的时候 xff0c 系统报错为 Failed to start httpd service Unit httpd service is masked 解决方法 xff1a systemctl unmask httpd
  • Python Pandas面试题及答案

    Pandas是一个开源库 xff0c 可在Python中提供高性能的数据处理 Pandas这个名称源自 面板数据 一词 xff0c 这表示来自多维数据的计量经济学 它可用于Python中的数据分析 xff0c 并由Wes McKinney在
  • podman简介

    podman简介掌握docker 跟上云时代的步伐 Podman是一个开源项目 xff0c 可在大多数Linux平台上使用并开源在GitHub上 Podman是一个无守护进程的容器引擎 xff0c 用于在Linux系统上开发 xff0c 管
  • 运维工程师从月薪 5K 到 50K,中间都经历了什么?

    做 运维 感觉像网管怎么办 xff1f 新工作运维3个多月 xff0c 天天就是维护重启服务器 xff0c 更新代码 感觉这样下去几年后就没有什么竞争力了 这是一个热门运维问题 xff0c 也是很多刚进入运维工作的同学面临的心境 确实 xf
  • Python初学者的自我修养,找到自己的方向

    Python初学者的自我修养 xff0c 找到自己的方向 对于我来说Python的应用场景主要是机器学习 深度学习相关 xff0c 对于其他的场景涉猎不多 因此本文的目的并不是列举出一系列小项目给你们练手 xff0c 而是希望引导大家思考这
  • 这100个shell脚本案例,你都知道吗?一篇教会你写90%的shell脚本

    shell 是一个应用程序 xff0c 它连接了用户和 Linux 内核 xff0c 让用户能够更加高效 安全 低成本地使用 Linux 内核 xff0c 这就是 Shell 的本质 shell脚本就是由Shell命令组成的执行文件 xff
  • 掌握它=掌握k8s!Kubernetes中文文档,学习提升看这一篇就足够

    Kubernetes又称 xff08 k8s xff09 xff0c 这几年可谓是非常的火热 xff0c Kubernetes让部署容器化的应用简单并且高效 xff0c 越来越多的程序员都想学习和掌握它来提高自己的效率 先来了解一下它的背景
  • Adaptive Autosar 整体架构理解

    1 总体说明 xff08 图片来源主要来源于Simulink 以及 Vector xff09 在Autosar官网 xff08 autosar org xff09 上 xff0c 目前CLASSIC PLATFORM 更新到4 4版本 xf
  • 244页Prometheus操作指南,内容详尽讲解细致

    Prometheus在监控工具中有多少话语权 xff1f 作为一款开源的监控工具 xff0c 早早地就在云原生计算基金会中毕业了 xff0c 如今已经成为了云原生应用的首选监控工具 xff0c 在国内外被广泛应用 Prometheus俨然已
  • 在 Linux 终端上的 10 个有趣的命令

    Linux 的命令行不仅是一个复杂且强大的命令所在地 xff0c 同时也是一个有趣的乐园 在本文中 xff0c 我整理了一系列有趣的 Linux 命令 xff0c 您可以从中获得乐趣 1 cmatrix 本列表中的第一个必须是 cmatri
  • 80篇+网络安全面试经验帖

    网络安全面试经验80篇 43 xff0c 看完妈妈再也不用担心我面试的问题了 汇总以下安全服务岗的面经 xff1a 渗透测试 红队攻防 代码审计 安全研究 红队开发 主要由两部分组成 xff1a 个人面试 互联网收纳整理 一 我的实习 am
  • Bash 中的 ${} 和 $() 有什么区别

    像 Linux 这样的基于 GNU 的操作系统依赖于一个名为 Bash 的命令语言解释器或 Shell 来完成它们的大部分计算任务和目标 Bash 是 Bourne Again Shell 的缩写 xff0c Bunne Again She
  • Go 服务端开发,请牢记这几条

    服务端开发一般是指业务的接口编写 xff0c 对大部分系统来说 xff0c 接口中CURD的操作占了绝大部分 然而 xff0c 网络上总有调侃 CURD工程师 的梗 xff0c 以说明此类开发技术并不复杂 但我个人认为 xff0c 如果仅仅
  • 域格4G模块串口开机自动透传的使用

    首先要求是模块版本为串口自动透传版本 1 模式切换 从透传模式切换至临时指令模式的时序 xff1a 1 串口设备给模块 连续发送 43 43 43 xff0c 模块收到 43 43 43 后 xff0c 会给串口设备发送一个 a 在发送 4
  • 网红送餐无人车冒充AI,真人海外远程操控

    美国网红外卖机器人Kiwibot实际由远在南美哥伦比亚的真人远程操控 xff0c 每人时薪不到2美元 xff0c 最多控制三台 2017年成立的Kiwi Campus公司累计获得200万美元融资 xff0c 约人民币1414万元 xff0c
  • 国产开源基础软件MiniGUI宣布支持RT-Thread!

    北京飞漫软件技术有限公司宣布 xff1a 将在 MiniGUI 4 0 2 版本中支持国产操作系统 RT Thread xff01 这是自 MiniGUI 创始人魏永明在本月初宣布启动 1998 年年底 xff0c 魏永明开始在清华大学开发
  • 既然C编译器是C语言写的,那第一个C编译器是怎样来的?

    来源 xff1a 伯乐在线 xff0c 作者 xff1a Chaobs 首先向C语言之父Dennis Ritchie致敬 xff01 当今几乎所有的实用的编译器 解释器 xff08 以下统称编译器 xff09 都是用C语言编写的 xff0c