-O1 -O2 -O3 优化的原理是什么?

2023-10-26

          一般来说,如果不指定优化标识的话,gcc就会产生可调试代码,每条指令之间将是独立的:可以在指令之间设置断点,使用gdb中的 p命令查看变量的值,改变变量的值等。并且把获取最快的编译速度作为它的目标。

当优化标识被启用之后,gcc编译器将会试图改变程序的结构(当然会在保证变换之后的程序与源程序语义等价的前提之下),以满足某些目标,如:代码大小最小或运行速度更快(只不过通常来说,这两个目标是矛盾的,二者不可兼得)。

  • O1优化会消耗少多的编译时间,它主要对代码的分支,常量以及表达式等进行优化。 

    O2会尝试更多的寄存器级的优化以及指令级的优化,它会在编译期间占用更多的内存和编译时间。 

    O3在O2的基础上进行更多的优化,例如使用伪寄存器网络,普通函数的内联,以及针对循环的更多优化。 

    Os主要是对代码大小的优化,我们基本不用做更多的关心。 通常各种优化都会打乱程序的结构,让调试工作变得无从着手。并且会打乱执行顺序,依赖内存操作顺序的程序需要做相关处理才能确保程序的正确性。  

  • -O0: 不做任何优化,这是默认的编译选项。

  • -O和-O1: 对程序做部分编译优化,对于大函数,优化编译占用稍微多的时间和相当大的内存。使用本项优化,编译器会尝试减小生成代码的尺寸,以及缩短执行时间,但并不执行需要占用大量编译时间的优化。 打开的优化选项:

  • O2优化能使程序的编译效率大大提升。

  • 从而减少程序的运行时间,达到优化的效果。

  • C++程序中的O2开关如下所示:

#pragma GCC optimize(2)
  • 同理O1、O3优化只需修改括号中的数即可。
  • 只需将这句话放到程序的开头即可打开O2优化开关。

开启O3优化:

#pragma GCC optimize(3,"Ofast","inline")

 

在不同的gcc配置和目标平台下,同一个标识所采用的优化种类也是不一样的,这可以使用-Q --help =optimizers来获取每个优化标识所启用的优化选项。

下面每个-f**优化标识都可以在上述链接中找到解释
1.-O,-O1:
这两个命令的效果是一样的,目的都是在不影响编译速度的前提下,尽量采用一些优化算法降低代码大小和可执行代码的运行速度。并开启如下的优化选项:

-fauto-inc-dec 
-fbranch-count-reg 
-fcombine-stack-adjustments 
-fcompare-elim 
-fcprop-registers 
-fdce 
-fdefer-pop 
-fdelayed-branch 
-fdse 
-fforward-propagate 
-fguess-branch-probability 
-fif-conversion2 
-fif-conversion 
-finline-functions-called-once 
-fipa-pure-const 
-fipa-profile 
-fipa-reference 
-fmerge-constants 
-fmove-loop-invariants 
-freorder-blocks 
-fshrink-wrap 
-fshrink-wrap-separate 
-fsplit-wide-types 
-fssa-backprop 
-fssa-phiopt 
-fstore-merging 
-ftree-bit-ccp 
-ftree-ccp 
-ftree-ch 
-ftree-coalesce-vars 
-ftree-copy-prop 
-ftree-dce 
-ftree-dominator-opts 
-ftree-dse 
-ftree-forwprop 
-ftree-fre 
-ftree-phiprop 
-ftree-sink 
-ftree-slsr 
-ftree-sra 
-ftree-pta 
-ftree-ter 
-funit-at-a-time

2. -O2
该优化选项会牺牲部分编译速度,除了执行-O1所执行的所有优化之外,还会采用几乎所有的目标配置支持的优化算法,用以提高目标代码的运行速度。

-fthread-jumps 
-falign-functions  -falign-jumps 
-falign-loops  -falign-labels 
-fcaller-saves 
-fcrossjumping 
-fcse-follow-jumps  -fcse-skip-blocks 
-fdelete-null-pointer-checks 
-fdevirtualize -fdevirtualize-speculatively 
-fexpensive-optimizations 
-fgcse  -fgcse-lm  
-fhoist-adjacent-loads 
-finline-small-functions 
-findirect-inlining 
-fipa-cp 
-fipa-cp-alignment 
-fipa-bit-cp 
-fipa-sra 
-fipa-icf 
-fisolate-erroneous-paths-dereference 
-flra-remat 
-foptimize-sibling-calls 
-foptimize-strlen 
-fpartial-inlining 
-fpeephole2 
-freorder-blocks-algorithm=stc 
-freorder-blocks-and-partition -freorder-functions 
-frerun-cse-after-loop  
-fsched-interblock  -fsched-spec 
-fschedule-insns  -fschedule-insns2 
-fstrict-aliasing -fstrict-overflow 
-ftree-builtin-call-dce 
-ftree-switch-conversion -ftree-tail-merge 
-fcode-hoisting 
-ftree-pre 
-ftree-vrp 
-fipa-ra


3. -O3
该选项除了执行-O2所有的优化选项之外,一般都是采取很多向量化算法,提高代码的并行执行程度,利用现代CPU中的流水线,Cache等。

-finline-functions      // 采用一些启发式算法对函数进行内联
-funswitch-loops        // 执行循环unswitch变换
-fpredictive-commoning  // 
-fgcse-after-reload     //执行全局的共同子表达式消除
-ftree-loop-vectorize   // 
-ftree-loop-distribute-patterns
-fsplit-paths 
-ftree-slp-vectorize
-fvect-cost-model
-ftree-partial-pre
-fpeel-loops 
-fipa-cp-clone options

这个选项会提高执行代码的大小,当然会降低目标代码的执行时间。

4. -Os
这个优化标识和-O3有异曲同工之妙,当然两者的目标不一样,-O3的目标是宁愿增加目标代码的大小,也要拼命的提高运行速度,但是这个选项是在-O2的基础之上,尽量的降低目标代码的大小,这对于存储容量很小的设备来说非常重要。
为了降低目标代码大小,会禁用下列优化选项,一般就是压缩内存中的对齐空白(alignment padding)

-falign-functions  
-falign-jumps  
-falign-loops 
-falign-labels
-freorder-blocks  
-freorder-blocks-algorithm=stc 
-freorder-blocks-and-partition  
-fprefetch-loop-arrays

5. -Ofast:
该选项将不会严格遵循语言标准,除了启用所有的-O3优化选项之外,也会针对某些语言启用部分优化。如:-ffast-math ,对于Fortran语言,还会启用下列选项:

-fno-protect-parens 
-fstack-arrays

6.-Og:
该标识会精心挑选部分与-g选项不冲突的优化选项,当然就能提供合理的优化水平,同时产生较好的可调试信息和对语言标准的遵循程度。

 

相关参考:http://www.mamicode.com/info-detail-2373500.html

                  https://www.cnblogs.com/wwcjj/p/9310671.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

-O1 -O2 -O3 优化的原理是什么? 的相关文章

  • 计算机组成原理(1)-软件设计(二十二)

    程序设计语言 软件设计 二十一 https blog csdn net ke1ying article details 129344983 计算机组成原理在软件设计考试分值占比较高 主要会考 1 数据的表示 数据进制转化 日常生活中使用的都
  • MAC 下 OpenCV4 配置 VScode 失败 Xcode 成功记录(2021年12月)

    2022 1 22更新 VScode 设置成功 详情请见 https blog csdn net qq 42067550 article details 122634801 问题描述 安装好了 OpenCV 但是在 VScode 里面花了3
  • 线程的状态及阻塞

    之前提到了线程和进程 那就提一下线程的状态吧 线程状态通常分为五种 New 新建状态 创建线程对象 该线程的生命周期开始 此时该线程已经有了相应的内存空间和其他资源 Runnable 就绪状态 线程对象创建后 调用该线程的start 方法就
  • 去哪儿,模拟登录(扫码登录)

    声明 本文仅限交流学习使用 请勿使用在任何非法商业活动 禁止用于非法用途 否则后果自负 如有侵权 请告知删除 谢谢 一 去哪儿 出行类大厂 为了安全 查询很多信息需要身份校验 有多种登陆方式 1 1 如查询航班信息时 自动弹出登录窗口 会有
  • MySQL常用函数、关键词

    一 关键词 1 unsigned 非负数 定义非负 可以在定义主键的自增列时使用 column name int UNSIGNED AUTO INCREMENT 2 desc 降序 从大到小 asc 或 缺省 为升序 从小到大 和order
  • 微信小程序之地理位置授权 wx.getLocation

    1 授权地理位置 点击按钮 弹出授权弹窗 点击允许后 在以后的操作中可以随时获取到用户地理位置 点击拒绝后 将无法获取到地理位置 也无法再次点击弹出弹窗
  • TortoiseGit使用详解(1)

    一 版本回退和本地分支推送 1 版本回退 假如我们在develop分支上进行开发 当我们想要将代码回退到之前提交的某一版本时 使用TortoiseGit如何进行操作呢 1 第一步 进入工作空间 右键 TortoiseGit Show log
  • Spring知识点小结

    1 Spring是什么 Spring是一个轻量级的IoC和AOP容器框架 目的是用于简化企业应用程序的开发 它使得开发者只需要关心业务需求 常见的配置方式有三种 基于XML的配置 基于注解的配置 基于Java的配置 主要由以下几个模块组成
  • Jemdoc+Github.io +Mac搭建个人学术主页

    一直想做一个个人学术主页 试过Github Pages的各种模版 也用过知乎里一个高票答案Hugo 但总觉得不够简洁 直到遇到Jemdoc 顿觉这才是学术主页该有的样子 作为Web小白 Mac用户 结合网上搜到的零碎的答案 终于捣鼓成功 看
  • Matlab绘制直方图、概率密度函数、累积分布函数

    视频学习 https www bilibili com video BV1HK411T76d from search seid 16338053070486680597 spm id from 333 337 0 0 总结如下 绘制直方图
  • 人工智能数学基础--概率与统计7:学习中一些术语的称呼或表示变化说明以及独立事件的一些补充推论

    一 概念表示变化说明 笔者最开始学习概率论时 是以美版M R 斯皮格尔等著作的 概率与统计 作为教材学习 学习过程中发现部分内容理解困难 之所以这样 一是这本书的内容太古老 教材是2002年翻译出版的 二是部分内容翻译不是很好 后来感谢AI
  • 【C++OJ2】字符串的倒置 &排列子序列

    愿我们 都能成为可爱又有趣的大人呀 目录 每日总结 排序子序列 字符串的倒置 gt gt 1 每日总结 当一个类对象的生命周期结束后 关于调用析构函数 先调用派生类的析构函数 后调用基类的析构函数 关于一个类的静态成员描述 该类的静态成员变
  • org.springframework.boot.builder.SpringApplicationBuilder.([Ljava/lang/Class;)V

    拆分项目为微服务时候 然后启动报了上面的错误 经过查找资料是pom文件中引入的springboot版本兼容性导致的 进行修改pom文件 修改前 pom部分代码
  • 网络部分问题

    HTTP协议 端口80 工作在应用层 不安全 不需要加密不需要证书 URL以http开头 请求包 请求行 请求头标 空行 请求数据 请求行由 请求方法 请求的URL HTTP版本构成 请求方法 get post head put optio
  • Unity脚本中枚举类型在inspector面板中文显示

    效果 工具脚本 ChineseEnumTool cs using System using UnityEngine if UNITY EDITOR using UnityEditor using System Reflection usin
  • STM使用SPI协议通信-基础(标准库)

    SPI协议是摩托罗拉公司开发的协议 它以主从方式工作 这种模式通常有一个主设备和一个或多个从设备 至少需要下列4根线 1 MISO Master Input Slave Output 主设备数据输入 从设备数据输出 2 MOSI Maste
  • 华为OD机试 - 查字典(Java)

    题目描述 输入一个单词前缀和一个字典 输出包含该前缀的单词 输入描述 单词前缀 字典长度 字典 字典是一个有序单词数组 输入输出都是小写 输出描述 所有包含该前缀的单词 多个单词换行输出 若没有则返回 1 用例 输入 b 3 a b c 输
  • RocketMQ的死信队列

    死信队列用于处理无法被正常消费的消息 当一条消息初次消费失败 消息队列会自动进行消息重试 达到最大重试次数后 若消费依然失败 则表明消费者在正常情况下无法正确地消费该消息 此时 消息队列 不会立刻将消息丢弃 而是将其发送到该消费者对应的特殊
  • Python数据可视化之条形图和热力图

    Python数据可视化之条形图和热力图 提示 介绍 简单介绍Pthon可视化的图表使用 提示 热力图和条形图 文章目录 Python数据可视化之条形图和热力图 前言 一 导入数据包 二 选择数据集 2 加载数据 2 读入数据 总结 前言 提

随机推荐

  • vue 二级级联菜单

    ul class sidebar menu li li ul
  • carplay是否可以用安卓系统_carplay能连接安卓手机吗

    carplay能连接安卓手机吗 carplay并不可以连接安卓手机 这一系统只能连接苹果的设备 有非常多车基本都有carplay功能 假如有这一功能 那么就可以将手机与自己的苹果手机连接起来 这样子可以导航 接打电话 用语音助手调节车机 听
  • 微信小程序之数据缓存

    在H5之前 缓存一般都是用cookie 但是cookie的存储空间太小 于是 H5增加了新的缓存机制 即localstorage 和 sessionstorage 具体的介绍就不在多说 在微信小程序中 数据缓存其实就和localstorag
  • 前端URL编码与解码:理解、应用与实践

    目录 什么是URL编码和解码 为什么需要URL编码和解码 1 特殊字符处理 2 支持非ASCII字符 3 SEO优化与用户体验 JavaScript中的URL编码和解码 URL编码示例 URL解码示例 实际应用场景 1 处理查询参数 2 构
  • Vue-CLI and Leaflet(2):地图基本操作(放大,缩小,平移,定位等)

    一 Vue CLI and Leaflet 起步 在 Vue CLI 中使用 Leaflet 二 Vue CLI and Leaflet 地图基本操作 放大 缩小 平移 定位等 三 Vue CLI and Leaflet 添加 marker
  • 《caffe学习之路》第一章:Ubuntu16.04 cuda及cudnn环境搭建

    这里我们选择一种简单的方式搭建cuda环境 那就是JetPack他会自动安装最新的驱动 CUDA Toolkit cuDNN TensorRT Opencv Python等 环境 系统 Ubuntu16 04 显卡 NVIDIA GTX20
  • Java 8系列之重新认识HashMap

    摘要 HashMap是Java程序员使用频率最高的用于映射 键值对 处理的数据类型 随着JDK Java Developmet Kit 版本的更新 JDK1 8对HashMap底层的实现进行了优化 例如引入红黑树的数据结构和扩容的优化等 本
  • vs2015的OpenCV3.2.0编译

    我们希望添加第三方功能模块和库或者针对特定cpu和gpu的编译调整优化选项 这样的需求就需要自己去编译opencv了 准备东西 opencv opencv contrib cmake 还有两个文件 因为可能是国内的原因 在configure
  • eviews建立时间序列模型_如何用eviews分析时间序列(全面).pdf

    您所在位置 网站首页 gt 海量文档 nbsp gt nbsp中学教育 nbsp gt nbsp高中教育 如何用eviews分析时间序列 全面 pdf70页 本文档一共被下载 次 您可全文免费在线阅读后下载本文档
  • 二层组播和三层组播

    平时常常说组播 其实只是多播的另外一种叫法 多播中 因为把参与多播的所有接收者称为组 所以才有组播的说法 多播技术要比广播技术复杂的多 多播技术对一些应用很重要 比如电视会议 聊天室等 物理层多播 系统需要对网络接口进行配置 让接口识别该地
  • MATLAB行向量顺序颠倒函数 - fliplr

    fliplr A 只可用于行向量 列向量不行 实例 1 行向量 2 列向量
  • 如何使用正则表达式实现Java日志信息的抓取与收集

    首先 什么是Java日志信息 简单来说 Java应用程序在运行过程中会输出一些信息 这些信息可以用来追踪程序运行状态 调试错误等 而Java日志信息就是这些输出信息的集合 那么为什么要抓取和收集Java日志信息呢 一方面 这些信息可以帮助我
  • 失业的程序员(八):创业的要素

    一 管饭哥登场 按理说我规定我和卞工的上班时间是上午8点到10点 弹性足够大 虽曰规定 但是遵不遵守随意 原因只有一个 引用卞工的话 就两个人 考毛勤 我 很是认可 严密的考勤制度的建立是老板对员工不怎么太信任的开始 是一种等级制度的体现
  • 1.神奇的字符串之快速求和

    文章目录 前言 正题 先看第一个代码 直接循环取出每一位数 总结 前言 这个专栏是分享一些好用的数据 和一些解题比较快的小方法 会持续更新 因为博主还是计算机方向的小白 知道的东西还是很少 希望大家可以多多指教 正题 众所周知 字符串一直是
  • PyTorch实现Logistic regression

    逻辑回归 Logistic regression 回归方法是对数值型连续随机变量进行预测和建模的监督学习算法 其特点是标注的数据集具有数值型的目标变量 回归的目的是预测数值型的目标值 逻辑回归对应线性回归 旨在解决分类问题 即将模型的输出转
  • python如何对微信应用进行监听

    要在 Python 中监听微信应用 需要使用微信提供的接口和相关的第三方库 具体实现方法如下 首先需要申请微信公众平台账号并获取相应的 AppID 和 AppSecret 使用第三方库 如 itchat 来进行接口调用 Itchat 是一个
  • Git提交error: RPC failed; result=22, HTTP code = 500的解决方法

    新建了一个项目使用sourcetree提交Git时 提示错误 RPC failed result 22 HTTP code 500 这是由于上传的包过大 HTTP的头错误导致的 解决办法 在终端执行命令显示隐藏文件夹 显示全部文件 defa
  • wget -o -O和-O-有什么区别?bash改色

    wget o O和 O 有什么区别 wget o 下载过程信息存入日志文件wget o youlogname log url 下载文件放另一边 wget O 以其他名称保存下载的文件内容 输出下载过程信息wget O home ym dem
  • linux之librdkafka库安装以及将#include <librdkafka/rdkafka.h>更改为#include <rdkafka.h>调用

    公众号 嵌入式不难 本文仅供参考学习 如有错误之处 欢迎留言指正 下载源代码 使用如下命令 git clone https github com edenhill librdkafka git 切换到发布的稳定分支 刚下载下来的源代码默认在
  • -O1 -O2 -O3 优化的原理是什么?

    一般来说 如果不指定优化标识的话 gcc就会产生可调试代码 每条指令之间将是独立的 可以在指令之间设置断点 使用gdb中的 p命令查看变量的值 改变变量的值等 并且把获取最快的编译速度作为它的目标 当优化标识被启用之后 gcc编译器将会试图