CK草稿本

2023-11-17

调用流程

获得op_ptr，ck有个工厂模式：

const auto op_ptrs = ck::tensor_operation::device::instance::DeviceOperationInstanceFactory<DeviceOp>::GetInstances();

设置参数，这些参数包括输入输出，以及其他必要的配置

auto argument_ptr = op_ptr->MakeArgumentPointer(a_device_buf.GetDeviceBuffer(),
                        b_device_buf.GetDeviceBuffer(),
                        c_device_buf.GetDeviceBuffer(),
                        M,
                        N,
                        K,
                        StrideA,
                        StrideB,
                        StrideC,
                        a_element_op,
                        b_element_op,
                        c_element_op);

1. 获得invoker_ptr：auto invoker_ptr = op_ptr->MakeInvokerPointer();
1. run：float ave_time = invoker_ptr->Run(argument_ptr.get(), StreamConfig{nullptr, true});
1. 结果后处理

Invoker

有一个基类BaseInvoker，定义了赋值拷贝，和Run函数（用于算子运行），以及一个虚析构
- 地址：include/ck/tensor_operation/gpu/device/device_base.hpp

然后每个算子里面会实现一个Invoker，来实现run的操作

struct BaseInvoker
{
    BaseInvoker()                   = default;
    BaseInvoker(const BaseInvoker&) = default;
    BaseInvoker& operator=(const BaseInvoker&) = default;

    virtual float Run(const BaseArgument*, const StreamConfig& = StreamConfig{})
    {
        return float{0};
    }

    virtual ~BaseInvoker() {}
};


struct Invoker : public BaseInvoker
{
    float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
    {
        // run kernel ....
        // cost time ....
    };

    float Run(const BaseArgument* p_arg,
                const StreamConfig& stream_config = StreamConfig{}) override
    {
        return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
    };
};

Argument

同样有个基类BaseArgument，有一个p_workspace_的void指针参数，暂不清楚做啥的
- 地址：include/ck/tensor_operation/gpu/device/device_base.hpp

而每个Operator中都会定义一个Argument子类，里面存一些输入输出，配置等参数

struct BaseArgument
{
    BaseArgument()                    = default;
    BaseArgument(const BaseArgument&) = default;
    BaseArgument& operator=(const BaseArgument&) = default;

    virtual ~BaseArgument() {}

    void* p_workspace_ = nullptr;
};

struct Argument : public ck::tensor_operation::device::BaseArgument
{
    Argument(const Tensor<ADataType>& a_gs_ms_ks,
                const Tensor<BDataType>& b_gs_ns_ks,
                Tensor<EDataType>& e_gs_ms_ns,
                AElementwiseOperation a_element_op,
                BElementwiseOperation b_element_op,
                CDEElementwiseOperation cde_element_op)
        : a_gs_ms_ks_{a_gs_ms_ks},
            b_gs_ns_ks_{b_gs_ns_ks},
            e_gs_ms_ns_{e_gs_ms_ns},
            a_element_op_{a_element_op},
            b_element_op_{b_element_op},
            cde_element_op_{cde_element_op}
    {
    }

    const Tensor<ADataType>& a_gs_ms_ks_;
    const Tensor<BDataType>& b_gs_ns_ks_;
    Tensor<EDataType>& e_gs_ms_ns_;

    AElementwiseOperation a_element_op_;
    BElementwiseOperation b_element_op_;
    CDEElementwiseOperation cde_element_op_;
};

Operator

基类叫BaseOperator，定义如下函数都是一些比较通用的基础属性：
- IsSupportedArgument
- GetTypeString
- GetTypeIdName
- GetTypeIdHashCode
- GetWorkSpaceSize
- SetWorkSpacePointer

通常子类中需要有定义：

struct Argument/MakeArgumentPointer
struct Invoke/MakeInvokerPointer

struct BaseOperator
{
    BaseOperator()                    = default;
    BaseOperator(const BaseOperator&) = default;
    BaseOperator& operator=(const BaseOperator&) = default;

    virtual bool IsSupportedArgument(const BaseArgument*) { return false; }
    virtual std::string GetTypeString() const { return ""; }

    virtual std::string GetTypeIdName() const { return typeid(*this).name(); }

    virtual std::string GetTypeIdHashCode() const
    {
        std::ostringstream oss;

        oss << std::hex << typeid(*this).hash_code();

        return oss.str();
    };

    virtual size_t GetWorkSpaceSize(const BaseArgument*) const { return 0; }

    virtual void SetWorkSpacePointer(BaseArgument* p_arg, void* p_workspace) const
    {
        assert(p_arg);
        p_arg->p_workspace_ = p_workspace;
    }

    virtual ~BaseOperator() {}
};

DeviceOperationInstanceFactory

library/include/ck/library/tensor_operation_instance/device_operation_instance_factory.hpp
- 在这个文件中声明了工厂，也就是：
```
    template <typename DeviceOp, typename Tag = void>
    struct DeviceOperationInstanceFactory;
```
library/include/ck/library/tensor_operation_instance/add_device_operation_instance.hpp
- 这里面有个add_device_operation_instances方法，定义了将op实现加入到vector(instance)中

在这之上，有一些函数是用于添加这些instance的，比如device_gemm_dl_f16_f16_f16_km_kn_mn_instances

位于library/src/tensor_operation_instance/gpu/gemm/device_gemm_dl_f16_f16_f16_km_kn_mn_instance.cpp
原理就是把tuple中的元素在add_device_operation_instances中全部加到vector中去

using device_gemm_dl_f16_f16_f16_km_kn_mn_instances = std::tuple<
        // MPerBlock=8, NPerBlock=8
        DeviceGemmDl<.....>,
        DeviceGemmDl<.....>,
        DeviceGemmDl<.....>,
        .....
    >;

void add_device_gemm_dl_f16_f16_f16_km_kn_mn_instances(
    std::vector<std::unique_ptr<
        DeviceGemm<Col, Row, Row, F16, F16, F16, PassThrough, PassThrough, PassThrough>>>&
        instances)
{
    add_device_operation_instances(instances, device_gemm_dl_f16_f16_f16_km_kn_mn_instances{});
}

然后这个函数会在DeviceOperationInstanceFactory中的GetInstances中被调用到，于是就得到了一个vector数组，里面装满了invoke_ptr实现
- 对于上面这个例子，在这个文件中被调用到：library/include/ck/library/tensor_operation_instance/gpu/gemm.hpp

案例

client_example/01_gemm/gemm.cpp

在这个example中有这样一句代码：

很显然，这是通过工厂类拿到算子实例集合

using DeviceOp =
    ck::tensor_operation::device::DeviceGemm<ALayout,
                            BLayout,
                            CLayout,
                            ADataType,
                            BDataType,
                            CDataType,
                            ck::tensor_operation::element_wise::PassThrough,
                            ck::tensor_operation::element_wise::PassThrough,
                            ck::tensor_operation::element_wise::PassThrough>;

// get device op instances
const auto op_ptrs = ck::tensor_operation::device::instance::DeviceOperationInstanceFactory<
    DeviceOp>::GetInstances();

DeviceGemm这个operator长这样，当然这也是个虚基类，真正的实现实在Impl文件夹中定义的：

template <typename ALayout,
        typename BLayout,
        typename CLayout,
        typename ADataType,
        typename BDataType,
        typename CDataType,
        typename AElementwiseOperation,
        typename BElementwiseOperation,
        typename CElementwiseOperation>
struct DeviceGemm : public BaseOperator
{
    virtual std::unique_ptr<BaseArgument>
    MakeArgumentPointer(const void* p_a,
                        const void* p_b,
                        void* p_c,
                        ck::index_t M,
                        ck::index_t N,
                        ck::index_t K,
                        ck::index_t StrideA,
                        ck::index_t StrideB,
                        ck::index_t StrideC,
                        AElementwiseOperation a_element_op,
                        BElementwiseOperation b_element_op,
                        CElementwiseOperation c_element_op) = 0;

    virtual std::unique_ptr<BaseInvoker> MakeInvokerPointer() = 0;
};

然后会在下一级子类中真正实现：

struct DeviceGemm_Xdl_CShuffle : public DeviceGemm<ALayout,
                                                BLayout,
                                                CLayout,
                                                ADataType,
                                                BDataType,
                                                CDataType,
                                                AElementwiseOperation,
                                                BElementwiseOperation,
                                                CElementwiseOperation>
........

然后通过工厂类的GetInstances拿到op_ptrs，接下来就是遍历，在for的过程中需要经过：
- auto argument_ptr = op_ptr->MakeArgumentPointer
- auto invoker_ptr = op_ptr->MakeInvokerPointer
- invoker_ptr->Run
- …
这就是这个example干的事儿，实际上在调用的过程中factory应该可以不用，而直接使用实例化的op_ptr

特有名词

在阅读demo（如gemm.cc）的时候会发现一些特有的名词，如：
- using F16 = ck::half_t;
- using Row = ck::tensor_layout::gemm::RowMajor;
- using Col = ck::tensor_layout::gemm::ColumnMajor;
- using PassThrough = ck::tensor_operation::element_wise::PassThrough;
有一些比较好理解，如：半精度之类
有一些可以勉强看出来，如layerout是列优先还是行优先（RowMajor/ColumnMajor）
有一些比较抽象，如PassThrough

以PassThrough为例

这是一个传值操作，代码实现位于：include/ck/tensor_operation/gpu/element/unary_element_wise_operation.hpp
下面展示了一部分可以看到，函数的作用是传值

struct PassThrough
{
    template <typename Y, typename X>
    __host__ __device__ void operator()(Y& y, const X& x) const;

    template <>
    __host__ __device__ void operator()<double, double>(double& y, const double& x) const
    {
        y = x;
    }

    template <>
    __host__ __device__ void operator()<float, float>(float& y, const float& x) const
    {
        y = x;
    }
    ....
};

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CK草稿本的相关文章

使用 C#.net 中的私有存储库的身份验证读取 BitBucket API

我已经尝试了几天让 BitBucket API 为我工作但是当涉及到让它为具有身份验证的私有存储库工作时将问题设置为私有当它们设置为公开无需身份验证一切正常代码示例如下 static void Main string args
为什么模板类的静态成员不唯一

看一下下面的代码 include
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
C# 中输入按键

我尝试了这段代码 private void textBox1 KeyPress object sender KeyPressEventArgs e if Convert ToInt32 e KeyChar 13 MessageBox Sho
如何修复此 YCrCb -> RBG 转换公式？

我使用的公式来自这个问题 https stackoverflow com questions 8838481 kcvpixelformattype 420ypcbcr8biplanarfullrange frame to uiimage c
在关键服务器上对字符串进行内存受限的外部排序，并合并和计算重复项（数十亿个文件名）

我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中第一部分是GUID 第二部分是名称模板我想计算具有同名模板的文件的数量例如我们有 c521c143
如何在 C# 中创建 PKCS12 .p12 文件？

这可能是一个n00b问题但我在这方面确实没有任何经验我需要创建一个包含 X509 证书和私钥的 p12 捆绑包我当前有两个对象 X509Certificate2 和包含关键信息的 RSAParameters 对象如何将它们合并到 p
Xcode 新手无法用 C++ 打开文件？

我一直在我参加的课程中使用 Windows 但我正在尝试运行基本代码来弄清楚如何从 Xcode 上的文件打开关闭输入输出而我通常在 Visual Studio 上使用的代码不是不知道为什么谢谢 include
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
我如何模拟 UserManager 和 RoleManager 进行单元测试

我模拟了抽象类来测试类的具体方法如下所示 var mock new Mock
如何按名字和姓氏排序，然后按 SamAccountName 排序，其中并非所有姓名都有名字和姓氏？

目前我有以下内容来自 LDAP Get context based on currently logged on user PrincipalContext domainContext new PrincipalContext Cont
我应该使用 Helgrind 还是 DRD 进行线程错误检测？

好像Valgrind http valgrind org docs manual manual html有两个工具都可以进行线程错误检测 Helgrind http valgrind org docs manual hg manual ht
在 boost 元组、zip_iterator 等上使用 std::get 和 std::tie

我有哪些使用选择std get lt gt and std tie lt gt 与增强结构一起例子我想使用基于范围的 for 循环在多个容器上进行迭代我可以实施zip函数它使用boost zip iterator include
如何使用 MongoDB 实现 ASP.NET Core 3.1 Identity？

是一个 API 用于简化后端和逻辑代码来管理用户密码个人资料数据角色声明令牌电子邮件确认等对于 Visual Studio 来说支撑脚手架 https learn microsoft com en us aspnet cor
C# XML 反序列化。将节点中的所有内部文本读取到字符串属性中

我目前正在尝试修改我的类以便我的模型上的文本属性包含某个节点的所有内部文本 text node 给我带来问题的 xml 示例是
OpenSSL：无需 SSL_read() / SSL_write() 即可执行加密/解密

我已经用 C 语言编写了一个基于事件的网络库现在我想通过 OpenSSL 添加 SSL TLS 支持而不是使用SSL read and SSL write 我宁愿让 OpenSSL 只执行传出传入数据的加密解密让我自己传输接收数
为什么在 C++ 类中的数据成员上使用像 m_ 这样的前缀？

许多 C 代码使用语法约定来标记数据成员常见的例子包括 m memberName对于公共成员在所有使用公共成员的情况下 memberName对于私人会员或所有会员其他人尝试强制使用this gt member每当使用数据成员时根据我
提升shared_from_this<>()

有人可以用几句话概括一下如何提升shared from this lt gt 应该使用智能指针特别是从使用绑定函数在 io service 中注册处理程序的角度来看编辑一些回复要求提供更多背景信息基本上我正在寻找陷阱即人们使用
曲线/路径骨架二值图像处理

我正在尝试开发一个可以处理图像骨架的路径曲线的代码我想要一个来自两点之间骨架的点向量该代码在添加一些点后结束我没有找到解决方案 include opencv2 highgui highgui hpp include opencv2
使用 ImageResizer 获取图像尺寸的最佳方法

我正在将现有的 MVC 4 网站从自制用户文件上传切换为在上传时使用 ImageResizer 调整文件大小我在文档中看到我不应该使用 System Drawing 但我无法找出任何其他获取图像尺寸的方法尺寸是来自原始图像还是调整大小的

随机推荐

简单工厂模式

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一创建头文件二创建 c文件 1 cat c 2 dog c 3 person c 三创建main c 四运行结果总结前言工厂模式常用的设计模
《Keras深度学习：入门、实战与进阶》CIFAR-10图像识别

本文摘自 Keras深度学习入门实战与进阶 https item jd com 10038325202263 html 这个数据集由Alex Krizhevsky Vinod Nair和Geoffrey Hinton收集整理共包含了6
cas TicketValidationException 未能够识别出目标 ‘ST-1-UxVA37oEE-qN-S0NNZclYXsXxFQSD-20200510PZSQ‘票根

原因超时了解决去掉debug再测试一下
Hive Transaction(Hive 事务管理)

Hive 事务在 Hive 3 得到增强 hive site xml 配置
Effective STL笔记(3)-Iterators

这部分主要讲了常用迭代器用法的一些方面分析STL中iterator const iterator reverse iterator和const reverse iterator的关系和一些转换其内容比较少简单 Item26 Prefe
Android 13 - binder阅读（6）- 使用ServiceManager获取服务

最近事情好多使用ServiceManager获取服务就暂时先不学习了不过从之前的学习中我们也大致可以猜到使用ServiceManager获取服务的过程根据服务名称获取到ServiceManager中服务代理对应的Handle 再到Bi
服务器443端口响应代码,使用443端口远程服务器

使用443端口远程服务器内容精选换一换代码迁移工具进行代码迁移时需要调用Linux下的rpm deb等命令才能完成扫描和迁移相关任务这些命令和逻辑必须在后端Linux运行 IDE插件只支持以Web模式使用root用户安装工具不支
2022吴恩达机器学习（Deep learning）课程对应笔记20：特征工程&多项式回归

2022吴恩达机器学习 Deep learning 课程对应笔记20 特征工程多项式回归更新时间 2023 03 20 特征工程特征工程指的是选择特征选择特征对模型的影响巨大多项式回归多项式回归就是 x n x n xn 对于多
前端例程20221011：文本动态组合

演示原理代码
MySQL之CRUD及常见面试题讲解

目录一 CRUD是什么二什么是SQL注入三行转列的使用四 CRUD中常用关键词关键词 GROUP BY HAVING ORDER BY 五聚合函数和连表查询聚合函数连表查询六 DELETE TRUNCATE DROP的
交叉编译libxcb与X11

交叉编译libxcb与X11 编译前提工具安装编译X11 编译依赖项Xtrans 编译依赖项xorgproto XCB完成后编译X11 X11完成编译xcb 编译依赖项xcb proto 编译依赖项libXau 最后编译xcb XCB
（附源码）springboot学生宿舍管理系统毕业设计453155

Springboot学生宿舍管理系统摘要科技进步的飞速发展引起人们日常生活的巨大变化电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用信息时代的到来已成为不可阻挡的时尚潮流人类发展的历史正进入一个新时代在
RabbitMQ之Work Queues模式

RabbitMQ之Work Queues模式本下面的文字代码原来自官网附上链接 RabbitMq 之 Work Queues 看完这篇文章对你绝对有好处好处一你可以了解透 Work Queues模式本文章内容98 以上都是来自官网
win服务器启动springboot项目,Spring boot项目部署为windows服务

用途使用 Spring Boot 开发的 Web 项目打包生成了一个 jar 包部署在 Windows 服务器中设置为开机启动spring boot 生成的 jar 包直接用 java jar 运行但是前提是需要登陆用户并且注
linux经典书籍推荐

对于linux来说它的用处很多它可以是java的基础又可以构建系统很多人对它越来越感兴趣下面分享一些linux经典书籍供大家参考入门篇 LINUX权威指南书不错写的很全面也比较广涉及的不深做为入门书籍不错可以比较全面的
ConstraintLayout 属性详解和Chain的使用

http blog csdn net zxt0601 article details 72736802
Nacos手动注册,Nacos内网IP的解决办法,自动获取外网注册服务

Nacos内网IP的解决办法自动获取外网注册服务废话不说直接上代码 pom文件
Appstore审核被拒-[4. DESIGN: PREAMBLE]

Appstore审核被拒原文如下原因是设置里有一个版本信息可以响应点击事件进入一个版本详情页苹果要求版本更新必须使用iOS版本更新内置更新机制 4 DESIGN PREAMBLE Design Preamble The version
【华为OD机试真题 python】二进制差异数【2022 Q4

前言华为OD笔试真题 python 本专栏包含华为OD机试真题会实时更新收纳网友反馈为大家更新最新的华为德科OD机试试题为大家提供学习和练手的题库订阅本专栏后可私信进交流群哦题目仅供参考千万不要照抄题目描述二进制差异数对
CK草稿本

调用流程获得op ptr ck有个工厂模式 const auto op ptrs ck tensor operation device instance DeviceOperationInstanceFactory