mali GPU 官网指南

2023-11-13

1、简介

         GPU(图形处理单元),是一种专门在个人电脑、工作站、游戏机和移动设备上图形运算工作的微处理器。以前GPU主要用于图形处理,现在GPU的通用计算技术也得到了飞速发展,事实证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至上百倍于CPU的性能。通用计算方面的标准有:OpenCl、CUDA、ATISTREAM。

其中,OpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景,AMD-ATINVIDIA时下的产品都支持Open CL

         GPU的生产厂商非常多,最大的三家是英特尔、NVIDIA、AMD,他们主要应用于PC领域。相比ARM CPU占据了移动端90%市场,ARM的mali GPU只是移动市场众多GPU的一小众,它主要应用基于ARM 体系结构的移动设备上,得益于CPU占有率发展迅猛。mali GPU最早由挪威科技大学项目独立出来成立的Falanx公司开发,在2006年被ARM收购,成为ARM一个GPU事业部,并在2007年mali作为arm的一部分,发布了mali-200 GPU     ,如表格所示经历了三代架构:

第一代Utgard

第二代Midgard

第三代Bifrost

Mali-200/300/400/450/470

Mali-T600/T700/T800系列

Mali-G3/G5/G7系列

按照性能划分:

高性能

中等

低功耗

Mali-G71/72 Mali-T860/T880

Mali-T760

Mali-G51/G52 Mali-T820/T830 Mali-T720

Mali-400/450/470 Mali-G31

 

         Hi3536使用的是Mali-T720GPU,有如下特点:

总线接口AMBA@4 ACE-LITE

支持MMU

L2 Caches:64KB~256KB

可配置1~8 cores

支持 OpenGL ES 3.1/2.0/1.1

支持 OpenCL 1.1/1.0,RenderScript

支持DirectX 11 FL9_3

完全可编程的架构,灵活支持各种几何与像素处理算法,包括多种快速图元、纹

理、像素及模板处理功能 

支持 ATSC 、 ETC2 等多种纹理压缩格式、输入输出格式(包括 YCbCr 数据格

式),可以对解码后的视频数据进行特效处理; 

支持双精度 FP64 及抗锯齿功能 

支持 DFS 功能

         OpenGLES为嵌入式图形算法库,主要提供2D/3D图形处理的相应接口

OpenCL开放运行语言,是GPU用于通用计算开发的一个标准。例如人工智能,深度学习,人脸识别等通用计算就使用后者。

 

2、开发工具

         arm提供了mali GPU各种使用场景下的调优、测试工具(需要用时再深入研究)。

(1)mali Graphics Debugger

针对采用ARM® Mali™ GPU的Android手机,进行app的GPU运行时调试和调优。

(2)mali Offline Compiler

    用于OpenGL ES着色器和OpenCL kernels离线编译的一套命令行工具。

(3)Mali Texture Compression Tool

         纹理压缩工具用于压缩ETC/ASTC格式的纹理

(4)OpenGL ES Emulator

         OpenGLES仿真器是一个映射OpenGL ES调用到desktop OpenGL API的库。

(5)ASTC Evaluation Codec

         ASTC评估编码器

(6)DS-5 Streamline

         MaliGPU性能分析工具

 

3、开发文档

(1)开发指南

网址:https://developer.arm.com/graphics/developer-guides

包括如下文档:

Getting Started With Mali GPUs

Mali Best Practices

Unity Guide for Unity Developers

Arm Guide to OpenCl Programming        //开发opencl的指导文件

OpenGL ES 3.X Developer Programming Guide

Arm Mali Gpu Application Optimizaton

Applicaton Developer Best Practices

Arm Guide for Unreal Engine 4 OptimizingMobile Gaming Graphics

 

(2)参考资料

网址:https://developer.arm.com/graphics/resources/tutorials

Unity Tutorials

VR Tutorials

Vulkan Tutorials

Android OpenGL ES 3.0&3.1 Tutorials

Arm Tools Tutorials

Performance and Optimization Tutorials

OpenCL Tutorials

GPU Compute Tutorials

Arm Architecture Tutorials

Unreal Engine Tutorials

Cocos2d-x Engine Tutorials

HTML 5 WebGL UI and Browser Tutorials

Mali Demos Tutorials

 

4、驱动和开发板

(1)驱动

网址:https://developer.arm.com/products/software/mali-drivers

Android NNAPI

Mali GPU User-Space Binary Drivers

Mali Bifrost GPUs Device Driver               //bifrost架构设备驱动

Mali Midgard GPUs Device Driver            //midgard架构设备驱动

Mali Utgard GPUs Device Driver              //utgard架构设备驱动

Mali Video Kernel Device Driver

Android Gralloc Module Source Code               //针对android

Mali GPU Android RenderScriptIntegration Modules    //针对android

Mali-DP ADF Kernel Device Driver                     //针对android

Mali GPUs Linux EXA/DRI2 and X11 DisplayDrivers

Mali GPUs UMP User-Space Drivers

 

(2)官网开发板

网址:https://developer.arm.com/graphics/development-platforms

Firefly-RK3288

Hikey 960 board

Sansum Nexus 10

ODROID-XU3

Samsung Chromebook

 

5、官网提供的SDK

Mali VR SDK for Android

Mali Vulkan SDK

Mali OpenGL ES SDK

https://github.com/ARM-software/opengl-es-sdk-for-android

https://arm-software.github.io/opengl-es-sdk-for-android/

         OpenGL(全写Open Graphics Library)是个定义了一个跨编程语言、跨平台编程接口的规格,它用于三维图象(二维的亦可)。它是个专业的图形程序接口,是一个功能强大,调用方便的底层图形库。

OpenGL ES (OpenGL for Embedded Systems)  OpenGL三维图形 API 的子集,针对手机、PDA和游戏主机等嵌入式设备而设计。OpenGL ES 是从 OpenGL 裁剪的定制而来的,去除了glBegin/glEnd,四边形(GL_QUADS)、多边形GL_POLYGONS)等复杂图元等许多非绝对必要的特性。经过多年发展,现在主要有两个版本,OpenGL ES 1.x 针对固定管线硬件的,OpenGL ES 2.x 针对可编程管线硬件。

 

Compute Library:

https://github.com/ARM-software/ComputeLibrary

https://arm-software.github.io/ComputeLibrary/latest/

         ARM Compute Library是ARM公司刚发布不久的开源工程,旨在为图像/视频/多媒体/计算机视觉等领域的开发者提供arm平台的硬件加速库。这个库中分别用OpenCL与NEON的方式实现了一些上述领域的基本算法,OpenCL主要是arm的Mali GPU加速,NEON是针对arm的A系列CPU。开发者可以不用关心arm的cpu与gpu怎样通过NEON或OpenCL来实现硬件的加速,直接调用这个库中的接口就可以,对于开发计算机视觉类的应用但是不太了解硬件加速编程的工程师来说十分有利。

         该库接口用C++实现,部分核心使用C语言实现。

 

6、驱动移植

         Hi3536使用Mali-T720GPU属于Midgard结构,因此下载Mali Midgard GPUs Device Driver的linux版本,报名:TX011-SW-99002-r23p0-01rel0,进入到kernel目录如下:

         该目录结构和linux内核src结构一致,将各个目录下的内容分别拷贝到linux src目录下。实际移植只拷贝了核心的drivers/gpu/arm整个目录到linux drivers/gpu目录下,然后修改src/drivers/video/Kconfig,添加arm的Kconfig,如图所示:

         在src/drivers/gpu/arm/midgard/platform下面参考现有平台,添加自己的平台信息hi3536,修改mali_kbase_config_hi3536.c文件添加中断号,GPU寄存器空间等。

         通过makemenuconfig配置mali GPU的选项,编译成模块或编译进内核:

Device Drivers  --->

         Graphicssupport  --->

                  ARM GPU Configuration  --->

                            <M>Mali Midgard series support  --->

                                     ---Mali Midgard series support

                                     []   Streamline support via Gator

                                     []   Enable legacy DVFS

                                     []   Enable kbase tracing

                                     []   devfreq support for Mali

                                     []   DMA_BUF fence support for Mali

                                     (hi3536)Platform name

                                     []   Enable Expert Settings  --->

上面名字hi3536就是刚才添加的平台名字,编译时会自动将平台下的内容编译进去。

         然后进入到根目录下编译模块makeuImage; make modules,在src/drivers/gpu/arm/midgard下就会生成一个mali_kbase.ko驱动。

         拷贝mali_kbase.ko到板子上,insmodmali_kbase.ko后,如果检测到GPU会有相应打印,可惜在hi3536上未成功检测到,手动读取GPU寄存器信息也是失败的。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

mali GPU 官网指南 的相关文章

  • 如何在ARMv8-a上启用Aarch32指令集?

    Raspberry Pi 3 使用具有 ARMv8 A53 内核的 Broadcom SoC https www raspberrypi org magpi raspberry pi 3 specs benchmarks 它还使用基于 De
  • 是否有专门设计的 C 函数或宏,用于以跨平台方式与汇编指令进行一对一编译以进行位操作?

    我有一个涉及仿真的项目 如果您查看我的帖子历史记录 您会看到我已经走了多远 并且我希望使用 C 进行伪二进制翻译并使用优化器和 或编译器使用 C 代码将我的 switch 语句内容编译为单个汇编指令 主要用于非常标准的指令 例如movs a
  • 我们可以优化代码来降低功耗吗?

    有没有什么技术可以优化代码以确保更低的功耗 架构是ARM 语言是C 来自 ARM 技术参考网站 ARM11 MPCore 的特性 提高能源效率的处理器 效率包括 准确的分支和子程序返回预测 减少数量 错误的指令获取和 解码操作 使用物理寻址
  • 通用 ELF 中的重定位(EM:40)

    我尝试从 Ubuntu 交叉编译到Friendly arm 但出现了奇怪的错误 root kevin VirtualBox home kevin Desktop makef make ARCH arm CROSS COMPILE arm n
  • 多核ARM cpu上的中断如何工作

    这个问题已经针对 x86 得到了解答 但是 我找不到太多关于 ARM MP cpu 如 Cortex A9 Cortex A15 等 的信息 更重要的是我想知道是否可以在非主CPU上引发中断而无需任何配置等 我正在开发一款仅处理主 cpu
  • 将 ZeroMQ 交叉编译为 ARM,以便在 MonoTouch iPhone 应用程序配置设置中使用

    我正在尝试在使用 MonoTouch 用 C 开发的 iPhone 应用程序中使用 ZeroMQ 库 我几乎解决了所有的问题 却在最后一道坎倒下了 我正在使用 ZeroMQ 2 1 10 和 C CLR 绑定 包装器 并在 Mac OS X
  • 使用 GCC 编译器为代码的特定部分保留寄存器

    是否可以为 C 代码的特定部分保留寄存器 ffixed reg 选项或声明全局寄存器变量不是我正在寻找的答案 我想保留特定范围 比如说特定函数 的寄存器值 使用局部寄存器变量是不可能的 因为它不能保证在整个范围内保留寄存器的值 我正在寻找类
  • arm64 汇编:LDP 与 LD4 执行时间

    假设我想用连续内存位置的值加载四个连续的 aarch64 向量寄存器 一种方法是 ldp q0 q1 x0 ldp q2 q3 x0 32 根据ARM优化指南 https static docs arm com uan0016 a cort
  • ARM 的启动过程是怎样的?

    我们知道 对于X86架构 按下电源按钮后 机器开始执行0xFFFFFFF0处的代码 然后开始执行BIOS中的代码以进行硬件初始化 BIOS 执行后 它使用引导加载程序将操作系统映像加载到内存中 最后 操作系统代码开始运行 对于ARM架构 使
  • 嵌入式 C++ (ARM9) 单元测试

    我来自 Java 和 JUnit 的世界 我演示了 Hudson 以及我使用 JUnit 取得的所有成果 我想在嵌入式设备上对 C 代码执行相同的操作 但找不到从哪里开始 该项目使用 iccarm exe IAR 编译器 进行编译 现在使用
  • ARM Linux 如何模拟 PTE 的脏位、访问位和文件位?

    As per pgtable 2 level h https git kernel org cgit linux kernel git torvalds linux git tree arch arm include asm pgtable
  • 在 ARM 处理器上执行存储在外部 SPI 闪存中的程序

    我有一个 ARM 处理器 能够与外部闪存芯片连接 写入芯片的是为 ARM 架构编译的程序 可供执行 我需要知道如何将这些数据从外部闪存获取到 ARM 处理器上以供执行 我可以提前运行某种复制例程 将数据复制到可执行内存空间吗 我想我可以 但
  • 用于 RHEL 的 gdb-multiarch

    我正在尝试寻找方法来运行gdb 多架构RHEL 中的命令 我已经安装了用于 ARM 处理的 QEMU 模拟器 我想安装GDB进行调试 我能够安装GDB 多体系结构在 Ubuntu 中运行命令成功 sudo apt get GDB multi
  • GCC ARM 汇编预处理器宏

    我正在尝试使用汇编 ARM 宏进行定点乘法 define MULT a b asm volatile SMULL r2 r3 0 1 n t ADD r2 r2 0x8000 n t ADC r3 r3 0 n t MOV 0 r2 ASR
  • 在嵌入式设备上使用new或malloc引起的段错误[关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 help reopen questions 我正在尝试
  • 为 ARM 交叉编译 zlib

    我尝试为arm poky linux gnueabi交叉编译zlib 但启动 make 时出现错误 zlib 1 2 11 AR HOST ar CC HOST gcc RANLIB HOST ranlib configure prefix
  • 如何使用 Neon SIMD 将无符号字符转换为有符号整数

    如何转换变量的数据类型uint8 t to int32 t使用霓虹灯 我找不到执行此操作的任何内在因素 假设您想要将 16 x 8 位整数的向量转换为 4 个 4 x 32 位整数的向量 您可以通过首先解压缩为 16 位 然后再次解压缩为
  • 产生并处理软件中断

    有人可以告诉我如何在Linux下生成软件中断然后用request irq处理它吗 或者也许这是不可能的 您可以使用软中断来代替 您可以通过编辑 include linux interrupt h 来定义您的 sofirq 然后使用函数 ra
  • 在linux x86平台上学习ARM所需的工具[关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个 x86 linux 机器 在阅读一些关于 ARM 的各种信息时 我很好奇 现在我想花一些时间学
  • 基于 Windows 8 ARM 的平板电脑上的 VB6

    随着 Windows 8 将支持 VB6 我的问题是 Microsoft 是否在任何地方表示 是或否 VB6 应用程序将在基于 ARM 的平板电脑上运行 如果没有 是否有任何 ARM 模拟器 以便我们可以在 Windows 8 ARM 平板

随机推荐

  • Words Seven

    2019独角兽企业重金招聘Python工程师标准 gt gt gt bar 棍子 酒吧 栅栏stick lip stickbarrier bar r er 障碍 hurdlebarrel bar rel 木桶barren bar ren 贫
  • 数二考纲新增内容-比较审敛法

    总的来说 为了避免出现2010年数一数二选择题的超纲嫌疑 命题组明确了会考察反常积分的比较审敛法 其实之前在做题中都已经涉及 主要多了一个反常积分的极限形式 这里给出一个总结 关于反常积分敛散性的原理 还有一个解题技巧就是利用对数 指数 幂
  • java数据类型转换,基本数据类型和String数据类型之间的转换

    6月16日学习打卡 自动类型转换 强制转换 基本数据类型和String转换 3 8类型转换 3 8 1自动类型转换 1 低精度向高精度赋值可以自动转换类型 char gt int gt long gt float gt double byt
  • 探索TiDB数据库

    一 TiDB介绍 TiDB是一款定位于在线事务处理 在线分析处理的融合型数据库产品 实现了一键水平伸缩 分布式事务与基于Raft协议保证强一致的多副本数据安全 具有实时OLAP等重要特性 同时兼容MYSQL协议和生态 迁移便捷 运维成本低
  • 老表,教你一招啊!!!如何用python实现将csv文件快速导入数据库,建议收藏!!!

    直接上代码 import pandas as pd from sqlalchemy import create engine MySQL的用户 root 密码 147369 端口 3306 数据库 date engine create en
  • 一行代码下载优酷、腾讯、B站等公开视屏

    安装you get工具包 pip install you get 下载命令解析 you get o e 123 o后面接本地地址 https v youku com v show id XOTQ3NjI1ODc2 html 为视屏页地址
  • RabbitMQ MQTT集群方案官方说明

    RabbitMQ MQTT 官方网说明 官方地址 https www rabbitmq com mqtt html 从3 8开始 该MQTT插件要求存在一定数量的群集节点 这意味着三分之二 五分之三 依此类推 该插件也可以在单个节点上使用
  • mysql除法函数_理解MySQL运算符和常用内置函数_MySQL

    一 MySQL中的运算符 注意事项 1 在除法运算和模数运算中 如果除数是0 将是非法除数 结果返回NULL 取模运算中 也可以用MOD a b 函数或者a b mysql gt select 1 0 100 0 1 0 100 0 NUL
  • 码上行动:利用Python与ChatGPT高效搞定Excel数据分析

    AI时代Excel数据分析提升之道 知识精进 学习答疑 上机实训 综合实战 ChatGPT应用 零基础入门 极速提升数据分析效率 亮点 1 零基础入门宝典 由浅入深讲解 无须额外的背景知识即可学习掌握 2 内容系统全面 可帮助读者快速了解使
  • C0177 [2004普及组-A]不高兴的津津(C语言写)

    题目描述 津津上初中了 妈妈认为津津应该更加用功学习 所以津津除了上学之外 还要参加妈妈为她报名的各科复习班 另外每周妈妈还会送她去学习朗诵 舞蹈和钢琴 但是津津如果一天上课超过八个小时就会不高兴 而且上得越久就会越不高兴 假设津津不会因为
  • 音频PCM数据的单声道、双声道之间的转换

    在使用tinyalsa处理PCM音频数据时发现该设备只能以双声道形式打开设备 tinypcminfo工具可以查看设备信息 out和in里面channels 最大和最小值都是2 但是实际使用中有时候又需要声卡采集和播放单声道数据怎么办 那就只
  • 入门级题解3. 无重复字符的最长子串

    题目 给定一个字符串 s 请你找出其中不含有重复字符的最长子串的长度 思路 这样一来 我们就可以使用 滑动窗口 来解决这个问题了 我们使用两个指针表示字符串中的某个子串 或窗口 的左右边界 其中左指针代表着上文中 枚举子串的起始位置 而右指
  • Niagara官方示例笔记 - 盘点自带重要模块

    Emitter State life cycle生命周期控制 发射器选择system 所有发射器都在system的state里设置生命周期 选择self 发射器独立控制 可以给发射器创建不同类型变量 使用set parameter模块计算
  • 【Vegas原创】ORA-16040 standby destination archive log file is locked解决

    ORA 16040 standby destination archive log file is locked Cause The target standby destination archive log file is curren
  • serverless与容器优缺点

    容器优势 1 可移植性 使用容器 开发人员可以确保他们的应用程序可以在任何云平台或本地服务器上运行 2 轻量化 容器镜像以层叠加 在本地拥有镜像层缓存 计算资源使用方面 容器也比虚拟机更高效 3 快速启动 容器启动在镜像只读层上叠加一层读写
  • 谈谈我们公司如何做Code Review

    研发中心团队越来越庞大了 开发人员越来越多了 和他们聊天过程中 发现开发人员对代码技能的提升很迷茫 诉求越来越浓厚 只不过一个接一个的项目交付没有给他们太多停留的时间 在这种情况下如何给团队营造浓厚的工程师交流氛围呢 方法有多种 最近进行了
  • 35+老测试员生涯回顾,揭秘无力吐槽的自动化真相…

    不知道从什么时候开始 软件测试行业就和 自动化 这个词联系在一起了 对于如今的测试人来说 几乎没有人不知道 自动化测试 甚至查看各大招聘网站 你从任何一个招聘渠道来看最近两年对测试岗位的要求 几乎都要求会自动化测试 而不少人一直认为手工测试
  • JS获取阴历+阳历时间

    1 阴历 获取阴历 start getLunar var nyear var nmonth var nday 1 var nwday var nhrs var nmin var nsec var lmonth lday lleap 农历参数
  • 海思麒麟985性能简介

    海思麒麟985 SoC由中国台湾积体电路制造有限公司打造 是麒麟980的升级改良版 率先使用7nm工艺制作 是对上一代10nm芯片的改进 主要在功耗和性能上做了较大改进 麒麟985大致参数为1 3 4 CPU架构 8核Mali G77 GP
  • mali GPU 官网指南

    1 简介 GPU 图形处理单元 是一种专门在个人电脑 工作站 游戏机和移动设备上图形运算工作的微处理器 以前GPU主要用于图形处理 现在GPU的通用计算技术也得到了飞速发展 事实证明在浮点运算 并行计算等部分计算方面 GPU可以提供数十倍乃