Fate横向联邦学习-训练评估

2023-05-16

1. 准备上传数据

我们直接使用Fate提供的案例数据目录在examples/data/breast_homo_guest.csv、examples/data/breast_homo_host.csv、

这里上传数据需要准备host以及guest两方的上传数据

根据官方解释在Fate的概念中分成3种角色,Guest、Host、Arbiter

Guest表示数据应用方,Host是数据提供方,在纵向算法中,Guest往往是有标签y的一方。arbiter是用来辅助多方完成联合建模的,主要的作用是用来聚合梯度或者模型,比如纵向lr里面,各方将自己一半的梯度发送给arbiter,然后arbiter再联合优化等等,arbiter还参与以及分发公私钥,进行加解密服务等等。一般是由数据应用方Guest发起建模流程。

2.编写上传数据配置upload_data_role.json

编写host的上传配置文件upload_data_host.json

{
  "file": "examples/data/breast_homo_host.csv",
  "head": 1,
  "partition": 10,
  "work_mode": 0,
  "namespace": "homo_breast_host",
  "table_name": "homo_breast_host"
}
#1.5.0以后版本
{
  "file": "examples/data/breast_homo_host.csv",
  "head": 1,
  "partition": 10,
  "work_mode": 0,
  "namespace": "experiment",
  "table_name": "breast_homo_host"
}

字段说明:

  • file: 文件路径
  • head: 指定数据文件是否包含表头,0 表示不需要 1 表示需要
  • partition: 指定用于存储数据的分区数
  • work_mode: 指定工作模式,0代表单机版,1代表集群版
  • table_name&namespace: 存储数据表的标识符号

编写guest的上传配置文件upload_data_guest.json

{
  "file": "examples/data/breast_homo_guest.csv",
  "head": 1,
  "partition": 10,
  "work_mode": 0,
  "namespace": "homo_breast_guest",
  "table_name": "homo_breast_guest"
}
#1.5.0以后版本
{
  "file": "examples/data/breast_homo_guest.csv",
  "head": 1,
  "partition": 10,
  "work_mode": 0,
  "namespace": "experiment",
  "table_name": "breast_homo_guest"
}

3. 上传数据

上传数据命令:

python ${your_install_path}/fate_flow/fate_flow_client.py -f upload -c ${upload_data_json_path}

${your_install_path}: fate的安装目录
${upload_data_json_path}:上传数据配置文件路径

注:运行此命令进入fate节点内部

docker exec -it fate_python bash
#1.5.0版本以后
docker exec -it standalone_fate bash

输入以下命令导入训练数据、测试数据以及评估数据:

python fate_flow/fate_flow_client.py -f upload -c examples/federatedml-1.x-examples/homo_logistic_regression/upload_data_guest.json

python fate_flow/fate_flow_client.py -f upload -c examples/federatedml-1.x-examples/homo_logistic_regression/upload_data_host.json

python fate_flow/fate_flow_client.py -f upload -c examples/federatedml-1.x-examples/homo_logistic_regression/upload_data_test.json

1.5.0版本以后可以使用flow命令:

#上传数据:

flow data upload -c examples/dsl/v2/homo_logistic_regression/upload_data_guest.json --drop

flow data upload -c examples/dsl/v2/homo_logistic_regression/upload_data_host.json --drop

flow data upload -c examples/dsl/v2/homo_logistic_regression/upload_data_test.json --drop

#查看fate表的相关信息(真实存储地址,数量,schema等) :

flow table info -n experiment -t homo_breast_guest

#删除fate表数据:

flow table delete -n experiment -t homo_breast_guest

控制台显示以下提示表示上传成功

打开fate监控面板fate_board

http://localhost:8080

根据上传完之后的job_id查询得,刚刚上传的两个任务

选择具体的任务查看详细信息

4. 建模

4.1 编写dsl配置

为了让任务模型的构建更加灵活,目前 FATE 使用了一套自定的领域特定语言 (DSL) 来描述任务。在 DSL 中,各种模块(例如数据读写 data_io,特征工程 feature-engineering, 回归 regression,分类 classification)可以通向一个有向无环图 (DAG) 组织起来。通过各种方式,用户可以根据自身的需要,灵活地组合各种算法模块。

DSL配置文件对每个组件既会定义输入数据及模型,也会定义输出数据及模型。作为下游组件会以上游组件的输出作为其输入。

DSL配置文件主要由组件名,模块,输入,输出,是否需要部署等构成

  • component_name:一个组件的名称,后缀以下划线加数字方式,例如dataio_0,通常数字都以0开始
  • module:FATE支持的算法模块中可选项,选择其中一个(Dataio,Intersect,Federated sampling,Feature scale,Hetero Feature Binning,Onehout encoder,Hetero feature selection,union,Hetero-lr,local baseline,Hetero-LinR,Hetero-Poisson,Homo-LR,Homo-NN,Hetero Secure Boosting,Evaluation,Hetero Pearson,Hetero-NN)
  • input:有两种类型的输入:一种是data(数据),一种是model(模型)。 data又分为三类:1. 普通数据。用于dataio,feature_engineering和evaluation的;2. 训练数据 。主要使用于一些逻辑回归模型中(如homo_lr,hetero_lr,secure_boost) ;3. 测试评估数据。如果训练数据指定了,将会被作为测试集,如果训练数据没有制定,将会被作为预测或转换任务
  • output:同样和输入一样有两种类型的输出:一种是data(数据),一种model(模型)
  • need_deploy:两个可选值:true或false。表示组件是否需要部署用于在线推理。这个字段仅用于在线推理【推理】DSL配置

为了尝试多一点的组件,我们的实践将涵盖训练以及评估模型。

/fate/examples/federatedml-1.x-examples/homo_logistic_regression/test_homolr_evaluate_job_dsl.json

1.7.0版本的dsl配置文件:

/data/projects/fate/examples/dsl/v2/homo_logistic_regression/homo_lr_train_eval_dsl.json

4.1.1 建模数据流定义

使用dataio组件,基于上一步上传好的数据定义建模数据输入/输出
这个例子里面定义了两个dataio,分别输出训练数据以及评估数据

        "dataio_0": {
            "module": "DataIO",
            "input": {
                "data": {
                    "data": [
                        "args.train_data"
                    ]
                }
            },
            "output": {
                "data": ["train"],
                "model": ["dataio"]
            }
         },
        "dataio_1": {
            "module": "DataIO",
            "input": {
                "data": {
                    "data": [
                        "args.eval_data"
                    ]
                },
                "model": [
                    "dataio_0.dataio"
                ]
            },
            "output": {
                "data": ["eval_data"]
            }
        },

4.1.2 训练输入输出定义

        "homo_lr_0": {
            "module": "HomoLR",
            "input": {
                "data": {
                    "train_data": [
                        "dataio_0.train"
                    ]
                }
            },
            "output": {
                "data": ["train"],
                "model": ["homolr"]
            }
        },

将dataio_0的输出对象作为训练的输入数据对象,输出横向联邦学习逻辑回归训练模型以及训练数据。
同理对评估数据进行训练定义,将dataio_1的输出对象以及homo_lr0的训练模型作为评估的输入数据对象,输出横向联邦学习逻辑回归训练模型以及评估数据。

组件结构体具体说明:

https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.mdhttps://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.md

4.1.2 评估输入输出定义

对评估数据集基于homo_lr_0输出的模型进行训练并且输出预测结果以及模型。

        "homo_lr_1": {
            "module": "HomoLR",
            "input": {
                "data": {
                    "eval_data": [
                        "dataio_1.eval_data"
                    ]
                },
                "model": [
                    "homo_lr_0.homolr"
                ]
            },
            "output": {
                "data": ["predict"],
                "model": ["homolr"]
            }
        },

4.2 编写运行配置

运行配置主要是用于指定guest、host、arbiter运行dsl任务相关配置,具体查看

https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.mdhttps://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.md

运行时配置文件,用于对各方中所有组件设置参数

  • initiator:指定发起人的角色和party_id
  • role:定义各种角色和其对应所属的party_id
  • role_paramters:根据角色不同参数有所不同,
  • algorithm_parameters:算法中的参数

/fate/examples/federatedml-1.x-examples/homo_logistic_regression/test_homolr_evaluate_job_conf.json

1.7.0版本的conf配置文件:

/data/projects/fate/examples/dsl/v2/homo_logistic_regression/homo_lr_train_eval_conf.json

4.2.1 定义建模角色以及运行模式

    "initiator": {
        "role": "guest",
        "party_id": 10000
    },
    "job_parameters": {
        "work_mode": 0
    },
    "role": {
        "guest": [10000],
        "host": [10000],
        "arbiter": [10000]
    },
    "role_parameters": {

4.2.2 定义角色参数

主要包括data数据结构定义以及组件配置按照角色区份。

4.2.2.1 guest角色参数

        "guest": {
            "args": {
                "data": {
                    "train_data": [{"name": "homo_breast_guest", "namespace": "homo_breast_guest"}],
                    "eval_data": [{"name": "homo_breast_test", "namespace": "homo_breast_test"}]
                }
            },
            "dataio_0":{
                "with_label": [true],
                "label_name": ["y"],
                "label_type": ["int"],
                "output_format": ["dense"]
            }
        },

4.2.2.2 host角色参数

        "host": {
            "args": {
                "data": {
                    "train_data": [{"name": "homo_breast_host", "namespace": "homo_breast_host"}],
                    "eval_data": [{"name": "homo_breast_test", "namespace": "homo_breast_test"}]
                }
            },
            "dataio_0":{
               "with_label": [true],
                "label_name": ["y"],
                "label_type": ["int"],
               "output_format": ["dense"]
            },
            "evaluation_0": {
                "need_run": [false]
            },
            "evaluation_1": {
                "need_run": [false]
            }
        }

4.3 定义算法配置

具体查看算法参数

FATE/python/federatedml/param at master · FederatedAI/FATE · GitHubhttps://github.com/FederatedAI/FATE/tree/master/python/federatedml/param

    "algorithm_parameters": {
        "homo_lr_0": {
            "penalty": "L2",
            "optimizer": "sgd",
            "eps": 1e-5,
            "alpha": 0.01,
            "max_iter": 20,
            "converge_func": "diff",
            "batch_size": 320,
            "learning_rate": 0.15,
            "init_param": {
				"init_method": "zeros"
            },
            "cv_param": {
                "n_splits": 4,
                "shuffle": true,
                "random_seed": 33,
                "need_cv": false
            }
        },
        "evaluation_0": {
            "eval_type": "binary"
        }
    }

 5. 开始训练评估任务

具体命令如下:

python {fate_install_path}/fate_flow/fate_flow_client.py -f submit_job -c ${runtime_config} -d ${dsl}

${runtime_config}:运行配置文件路径
${dsl}:dsl文件路径

控制台输出命令:

python fate_flow/fate_flow_client.py -f submit_job -c examples/federatedml-1.x-examples/homo_logistic_regression/test_homolr_evaluate_job_conf.json  -d examples/federatedml-1.x-examples/homo_logistic_regression/test_homolr_evaluate_job_dsl.json

1.5.0版本以后可以使用flow命令: 

flow job submit -c examples/dsl/v2/homo_logistic_regression/homo_lr_train_eval_conf.json  -d examples/dsl/v2/homo_logistic_regression/homo_lr_train_eval_dsl.json

 控制台与监控面板显示如下信息


 显示运行进度:

6. 查看结果

通过监控面板查看job执行结果 ,通过job_id查询对应任务

可以看到建模的每个过程组成的DAG图

6.1 查看dataio_0执行结果

根据dsl定义的输出我们点击"view the outputs"查看结果如何

由于输出类型是data类型,可以在"data output"看到输入的数据列表项如上

点击"log"可以查看日志

6.2 查看dataio_1执行结果

dataio_1是用于评估的数据,数据输出结果如下

6.3 查看分析训练结果



6.3.1 homo_lr_0

homo_lr_0是分别在guest、host训练homo_breast_guest以及homo_breast_host得出最终模型

下面表格列出所有特征variable以及通过LR分类得出特征对应权值weight 

最大迭代次数(iterations):20

是否收敛(converged):false

下面还有一个曲线图,表示LR损失函数值随着迭代次数的变化

查看data output 训练结果如下


 

id:id
label: 标签值,真实结果
predict_result: 预测结果
predict_score: 预测得分
predict_detail:预测结果的细节

6.3.2 homo_lr_1

home_lr_1是基于homo_lr_0预测test数据集的结果。
输出模型结果如下:

查看data output 训练结果如下:

6.4 查看模型评估结果

6.4.1 homo_lr_0模型评估evalation_0 结果

模型评估结果如下:

这里的auc值、ks值显示训练数据集的正样本概率以及好坏样本累计差异率

下面是几种常见评估曲线

6.4.2 homo_lr_1模型评估evalation_1 结果

homo_lr_1使用homo_lr_0训练的模型对test数据集进行预测,得出的结果如下图,相对evalation_0各部分指标略有下降。 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Fate横向联邦学习-训练评估 的相关文章

随机推荐

  • go 实现快速排序

    一 点睛 快速排序 xff08 Quicksort xff09 是对冒泡排序的一种改进 基本思想是 xff1a 通过一趟排序将要排序的数据分割成独立的两部分 xff0c 其中一部分的所有数据都比另外一部分的所有数据都要小 xff0c 然后再
  • Chrome浏览器无法加载已解压的.crx文件的解决办法

    1 找到crx文件 xff0c 将 crx文件后缀名改为zip 并解压成文件夹 2 在扩展程序页面点击加载已解压的扩展程序 选择上面解压的文件夹 点击确定即可安装完成
  • 软件测试模型与软件测试流程5个阶段(重)

    软件测试流程 xff1a 需求分析阶段 软件设计和编码阶段 xff08 进行单元测试 xff09 集成 系统 验收测试阶段 软件测试模型 xff1a 传统 xff1a 项目计划 需求分析 软件设计 程序开发 软件测试 集成维护 V模型 xf
  • Android Studio如何卸载干净?

    想要卸载Android Studio xff1f 跟着步骤做 xff0c 还愁卸载不干净 xff1f 1 卸载前 xff0c 一定要把Android Studio退出 xff0c 接着打开 控制面板 卸载程序 Android Studio
  • 观华为模拟面试大赛有感

    1 面试注重个人收获与自我提升 xff0c 工作注重整体利益 2 遇到问题先从自身寻找问题 xff0c 努力沟通并解决 3 稳 回答问题先思考一会儿 xff0c 不要急躁 狠 xff1a 一语中的 xff0c 切中要害 xff0c 简洁有力
  • linux关于消息队列中消息的大小的限制

    在消息队列中 xff0c 例如函数msgsnd int msqid const void msgp size t msgsz int msgflg 这个函数调用的时候 xff0c msgsz最大只能为8192 xff0c 也就是2的16次方
  • MySQL事务隔离级别详解

    MySQL事务隔离级别详解 SQL标准定义了4类隔离级别 xff0c 包括了一些具体规则 xff0c 用来限定事务内外的哪些改变是可见的 xff0c 哪些是不可见的 低级别的隔离级一般支持更高的并发处理 xff0c 并拥有更低的系统开销 R
  • php 发送与接收流文件

    php 发送与接收流文件 sendStreamFile php 把文件以流的形式发送 receiveStreamFile php 接收流文件并保存到本地 sendStreamFile php lt php php 发送流文件 64 para
  • php 上传图片保存到数据库例子

    php 上传图片保存到数据库例子 php 上传图片 xff0c 一般都使用move uploaded file 方法保存在服务器上 但如果一个网站有多台服务器 xff0c 就需要把图片发布到所有的服务器上才能正常使用 xff08 使用图片服
  • 结构体最后的长度为0或1数组的作用(转载)

    其实很早在看LINUX下就看到这个东西 xff0c 后来在MFC内存池里同样也看到了类似的东西 xff0c 还依照MFC写过一个类似的小内存池 xff0c xff08 MFC用的是return this 43 1 xff09 后来在李先静的
  • chmod 755和chmod 4755的区别

    chmod 755和chmod 4755的区别 from xff1a http hi baidu com angivo blog item d679237e467f68320dd7da10 html chmod是Linux下设置文件权限的命
  • spring的依赖注入

    一 点睛 控制反转和依赖注入在Spring环境下是等同的概念 xff0c 控制反转是通过依赖注入实现的 所谓依赖注入指的是容器负责创建对象和维护对象间的依赖关系 xff0c 而不是通过对象本身负责自己的创建和解决自己的依赖 依赖注入的主要目
  • VxWorks网络编程

    vxworks实现了与BSD4 4 TCP IP兼容的网络协议栈 xff0c 并且其实时性 较之有很大提高 xff0c 这使得基于BSD4 4 UNIX Socket的应用程序可以很方便地移植到vxworks中去 1 1vxworks网络组
  • su: must be suid to work properly错误

    内核 linux2 6 21 文件系统 busybox1 19 2 yaffs2 开发板 xff1a loongson 1b 嵌入式文件系统一般用户执行su root切换根用户提示错误 xff1a su must be suid to wo
  • Tslib移植与分析

    目标平台 xff1a LOONGSON 1B开发板 xff08 mips32指令集 xff09 编译平台 xff1a x86PC VMware6 5 Ubuntu10 04 xff08 下面简称 ubuntu系统 xff09 或 xff1a
  • Linux时间函数

    系统环境 xff1a ubuntu10 04 简介 本文旨在为了解Linux 各种时间类型与时间函数提供技术文档 1 Linux下常用时间类型 Linux下常用时间类型有四种 xff1a time t struct tm struct ti
  • 基于UDP协议的网络编程

    下图是典型的UDP客户端 服务器通讯过程 下图出自 Unix网络编程 以下是简单的UDP服务器和客户端程序 xff0c 服务端接收来自客户端的字符 xff0c 转成大写后返送给客户端 备注 xff1a 程序在ubuntu10 04经过编译验
  • 14、交叉编译cairo

    14 交叉编译cairo 目标平台 xff1a LOONGSON 1B 开发板 内核 xff1a Linux 3 0 编译平台 xff1a ubuntu10 04 交叉工具链 xff1a gcc 3 4 6 2f 一 简介 在信息领域中 x
  • 联邦学习(Federated Learning)

    联邦学习简介 联邦学习 xff08 Federated Learning xff09 是一种新兴的人工智能基础技术 xff0c 其设计目标是在保障大数据交换时的信息安全 保护终端数据和个人数据隐私 保证合法合规的前提下 xff0c 在多参与
  • Fate横向联邦学习-训练评估

    1 准备上传数据 我们直接使用Fate提供的案例数据目录在examples data breast homo guest csv examples data breast homo host csv 这里上传数据需要准备host以及gues