【Scala-ML】使用Scala构建机器学习工作流

2023-05-16

引言

在这一小节中,我将介绍基于数据(函数式)的方法来构建数据应用。这里会介绍monadic设计来创建动态工作流,利用依赖注入这样的高级函数式特性来构建轻便的计算工作流。

建模过程

在统计学和概率论中,一个模型通过描述从一个系统中观察到的数据来表达任何形式的不确定性,模型使得我们可以用来推断规则,进行预测,从数据中学习有用的东西。
对于有经验的Scala程序员而言,模型常常和monoid联系起来。monoid是一些观测的集合,其中的操作是实现模型所需的函数。

关于模型的特征
模型特征的选择是从可用变量中发现最小集合来构建模型的过程。数据中常常包含多余和不相干的特征,这些多余特征并不能提供任何有用信息,所以需要通过特征选择将有用的特征挑选出来。
特征选择包含两个具体步骤

  • 搜索新的特征子集
  • 通过某种评分机制来评估特征子集

观测数据是一组隐含特征(也称为隐含变量,latent variables)的间接测量,他们可能是噪声,也可能包含高度的相关性和冗余。直接使用原始观测进行预测任务常常得到不准确的结果,使用从观测数据提取的所有特征又带来了计算代价。特征抽取可以通过去除冗余或不相关的特征来减少特征数量或维度。

设计工作流

首先,所选的数学模型是从原始输入数据中抽取知识的,那么模型的选择中需要考虑以下几个方面:

  • 业务需求,比如预测结果的准确度
  • 训练数据和算法的可用性
  • 专业领域的相关知识

然后,从工程角度出发,需要选择一种计算调度框架来处理数据,这需要考虑以下几个方面:

  • 可用资源,如CPU、内存、IO带宽
  • 实现策略,如迭代和递归计算
  • 响应整个过程的需求,如计算时间、中间结果的显示

下面的图标给出了计算模型的工作流程:

在这个流程图中,下游的数据转换(data transformation)的参数需要根据上游数据转换的输出进行配置,Scala的高阶函数非常适合实现可配置的数据转换。

计算框架

创建足够灵活和可重用的框架的目的是为了更好地适应不同工作流程,支持各种类型的机器学习算法。
Scala通过特质(traits)语法实现了丰富的语言特性,可以通过下面的设计层级来构建复杂的程序框架:

管道操作符(The pipe operator)

数据转换是对数据进行分类、训练验证模型、结果可视化等每个步骤环节的基础。定义一个符号,表示不同类型的数据转换,而不暴露算法实现的内部状态。而管道操作符就是用来表示数据转换的。

trait PipeOperator[-T, +U] {
  def |>(data: T): Option[U]
}

|>操作符将类型为T的数据转换成类型为U的数据,返回一个Option来处理中间的错误和异常。

单子化数据转换(Monadic data transformation)

接下来需要创建单子化的设计(monadic design)来实现管道操作(pipe operator)。通过单子化设计来包装类_FCT_FCT类的方法代表了传统Scala针对集合的高阶函数子集。

class _FCT[+T](val _fct: T) {
  def map[U](c: T => U): _FCT[U] = new _FCT[U]( c(_fct))

  def flatMap[U](f: T =>_FCT[U]): _FCT[U] = f(_fct)

  def filter(p: T =>Boolean): _FCT[T] =
  if( p(_fct) ) new _FCT[T](_fct) else zeroFCT(_fct)

  def reduceLeft[U](f: (U,T) => U)(implicit c: T=> U): U =
  f(c(_fct),_fct)

  def foldLeft[U](zero: U)(f: (U, T) => U)(implicit c: T=> U): U =
  f(c(_fct), _fct)

  def foreach(p: T => Unit): Unit = p(_fct)
}

最后,Transform类将PipeOperator实例作为参数输入,自动调用其操作符,像这样:

class Transform[-T, +U](val op: PipeOperator[T, U]) extends _FCT[Function[T, Option[U]]](op.|>) {
  def |>(data: T): Option[U] = _fct(data)
}

也许你会对数据转换Transform的单子化表示背后的原因表示怀疑,毕竟本来可以通过PipeOperator的实现来创建任何算法。
原因是Transform含有丰富的方法,使得开发者可以创建丰富的工作流。
下面的代码片段描述的是使用单子化方法来进行数据转换组合:

val op = new PipeOperator[Int, Double] {
  def |> (n: Int):Option[Double] =Some(Math.sin(n.toDouble))
}
def g(f: Int =>Option[Double]): (Int=> Long) = {
  (n: Int) => {
    f(n) match {
      case Some(x) => x.toLong
      case None => -1L
    }   
  }
}
val gof = new Transform[Int,Double](op).map(g(_))

这里使用函数g作为现有的数据转换来扩展op。

依赖注入(Dependency injection)

一个由可配置的数据转换构成的工作流在其不同的流程阶段都需要动态的模块化。蛋糕模式(Cake Pattern)是使用混入特质(mix-in traits)来满足可配置计算工作流的一种高级类组合模式。
Scala通过特质这一语法特性使得开发者能够使用一种灵活的、可重用的方法来创建和管理模块,特质是可嵌套的、可混入类中的、可堆叠的、可继承的。

val myApp = new Classification with Validation with PreProcessing {
  val filter = ..
}
val myApp = new Clustering with Validation with PreProcessing {
  val filter = ..
}

对于上面两个应用来说,都需要数据的预处理和验证模块,在代码中都重复定义了filter方法,使得代码重复、缺乏灵活性。当特质在组合中存在依赖性时,这个问题凸现出来。

混入的线性化
在混入的特质中,方法调用遵循从右到左的顺序:
- trait B extends A
- trait C extends A
- class M extends N with C with B
Scala编译器按照M => B => C => A => N的线性顺序来实现

trait PreProcessingWithValidation extends PreProcessing {
  self: Validation =>
  val filter = ..
}

val myApp = new Classification with PreProcessingWithValidation {
  val validation: Validation
}

在PreProcessingWithValidation中使用self类型来解决上述问题。
(tips:原书的内容在这里我没怎么搞清楚,不知道是通过自身类型混入了Validation后filter方法具体是怎么实现的,以及实例化Classification时混入PreProcessingWithValidation难道不需要混入Validation吗?我表示疑问)

工作流模块

由PipeOperator定义的数据转换动态地嵌入了通过抽象val定义的模块中,下面我们定义工作流的三个阶段:

trait PreprocModule[-T, +U] { val preProc: PipeOperator[T, U] }
trait ProcModule[-T, +U] { val proc: PipeOperator[T, U] }
trait PostprocModule[-T, +U] { val postProc: PipeOperator[T, U] }

上面的特质(模块)仅包含一个抽象值,蛋糕模式的一个特点是用模块内部封装的类型初始化抽象值来执行严格的模块化:

trait ProcModule[-T, +U] {
  val proc: PipeOperator [T, U]
  class Classification[-T, +U] extends PipeOperator [T,U] { }
}

构建框架的一个目的是允许开发者可以从任何工作流中独立创建数据转换(继承自PipeOperator)。

工作流工厂

接下来就是将不同的模块写入一个工作流中,通过上一小节中的三个特质的堆叠作为自身引用来实现:

class WorkFlow[T, U, V, W] {
  self: PreprocModule[T,U] with ProcModule[U,V] with PostprocModule[V,W] =>

  def |> (data: T): Option[W] = {
    preProc |> data match {
      case Some(input) => {
        proc |> input match {
          case Some(output) => postProc |> output
          case None => { … }
        }
      }
      case None => { … }
    }
  }
}

下面介绍如何具体地实现一个工作流。
首先通过继承PipeOperator来定义集中数据转换:

class Sampler(val samples: Int) extends PipeOperator[Double => Double, DblVector] {
  override def |> (f: Double => Double): Option[DblVector] =
  Some(Array.tabulate(samples)(n => f(n.toDouble/samples)) )
}

class Normalizer extends PipeOperator[DblVector, DblVector] {
  override def |> (data: DblVector): Option[DblVector] =
  Some(Stats[Double](data).normalize)
}

class Reducer extends PipeOperator[DblVector, Int] {
  override def |> (data: DblVector): Option[Int] =
  Range(0, data.size) find(data(_) == 1.0)
}


工作流工厂由这个UML类图描述。
最终通过动态地初始化抽象值preProc、proc和postProc来实例化工作流。

val dataflow = new Workflow[Double => Double, DblVector, DblVector, Int]
  with PreprocModule[Double => Double, DblVector]
  with ProcModule[DblVector, DblVector]
  with PostprocModule[DblVector, Int] {
    val preProc: PipeOperator[Double => Double,DblVector] = new Sampler(100) //1
    val proc: PipeOperator[DblVector,DblVector]= new Normalizer //1
    val postProc: PipeOperator[DblVector,Int] = new Reducer//1
}

dataflow |> ((x: Double) => Math.log(x+1.0)+Random.nextDouble) match {
  case Some(index) => …

参考资料

《Scala for Machine Learning》Chapter 2

转载请注明作者Jason Ding及其出处
jasonding.top
Github博客主页(http://blog.jasonding.top/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Scala-ML】使用Scala构建机器学习工作流 的相关文章

随机推荐

  • 【Seata】安装 - mac

    1 下载 官网 xff1a https seata io zh cn index html 2 修改配置文件 2 1 file conf 还有user password 2 2 registry conf 1 xff09 registry
  • Go Modules模式

    Go Modules模式 xff08 1 xff09 go mod 命令 命令作用go mod init生成 go mod 文件 在当前文件夹下初始化一个新的 go mod 文件go mod download下载 go mod 文件中指明的
  • 【Go】flag

    flag String span class token keyword func span span class token function String span span class token punctuation span n
  • Mybatis 逆向工程

    Mybatis 逆向工程 Maven项目generatorConfig xmlpom xml Maven项目 项目结构 xff1a generatorConfig xml span class token prolog lt xml ver
  • 原理分享 | 单片机常用通信协议汇总(上)

    vx 嵌入式工程师成长日记 https mp weixin qq com s biz 61 Mzg4Mzc3NDUxOQ 61 61 amp mid 61 2247484134 amp idx 61 1 amp sn 61 b779ccf0
  • C语言模拟TCP通信-------收发数据

    简介 这篇是我学习网络编程时初次接触到的 xff0c 感觉挺适合初学者 xff0c 下文主要介绍了如何使用Linux模拟TCP通信 xff0c 分为客户端和服务器端两大部分 xff0c 外加一个总的头文件 流程 服务器端和客户端使用TCP的
  • 多传感器融合记录

    多传感器信息融合的典型应用 多传感器融合中的时间硬同步1 论文阅读 weixin 39606911的博客 CSDN博客 前言阅读硕士论文 自动驾驶中多传感器集成同步控制器设计与实现 xff0c 该论文为自动驾驶设计了一套时间同步控制器 xf
  • VINS记录

    euroc launch lt launch gt lt arg name 61 34 config path 34 default 61 34 find feature tracker config euroc euroc config
  • OpenCV介绍与入门

    OpenCV入门 OpenCV介绍关于OpenCV1 OpenCV能做什么 xff1b 2 OpenCV与图形学与FFmpeg的关系 xff1b 3 OpenCV的未来 xff1b OpenCV介绍 OpenCV是计算机视觉的框架 关于Op
  • 【可见光室内定位】(一)概览

    目录 一 室内无线定位技术概况二 研究现状三 应用前景背景 一 室内无线定位技术概况 二 研究现状 得益于可见光通信 xff08 xff36 xff2c xff23 xff09 技术的迅速发展 xff0c 可 见光定位 xff08 xff3
  • 【机器学习中的数学】比例混合分布

    比例混合分布 Scale Mixture Distribution 混合分布是来自其他随机变量的集合构成的随机变量的概率分布 xff1a 一个随机变量是根据给定的概率从集合随机选取的 xff0c 然后所选随机变量的值就得到了 first a
  • 互联网相似图像识别检索引擎 —— 基于图像签名的方式

    一 引言 多媒体识别是信息检索中难度较高且需求日益旺盛的一个问题 以图像为例 xff0c 按照图像检索中使用的信息区分 xff0c 图像可以分为两类 xff1a 基于文本的图像检索和基于内容识别的图像检索 xff08 CBIR xff1a
  • 【Vim】使用map自定义快捷键

    map简介 map是一个映射命令 将常用的很长的命令映射到一个新的功能键上 map是Vim强大的一个重要原因 xff0c 可以自定义各种快捷键 xff0c 用起来自然得心应手 映射的种类 有五种映射存在 xff1a 用于普通模式 输入命令时
  • 【Scala】使用Option、Some、None,避免使用null

    避免null使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是 无 xff0c 在Java xff0c 它是null 在Java 里 xff0c null 是一个关键字 xff0c 不是一个对象 xff0c 所以对它调用任何
  • 【Linux】使用update-alternatives命令进行版本的切换

    引言 在Debian系统中 xff0c 我们可能会同时安装有很多功能类似的程序和可选配置 xff0c 可能会出现同一软件的多个版本并存的场景 比如像是一些编程语言工具 xff0c 一些系统中自带的是python2 6 xff0c 而现在py
  • stm32G0 启动

    目的 STM32G是意法半导体这两年新推出的系列芯片 xff0c 相比原先的F系列的芯片有很多提升点 xff0c 将来必将取代F系列芯片的地位 对于新芯片的应用来说能够正确下载与运行程序是比较重要的一点 xff0c 这篇文章将对 STM32
  • 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子

    xfeff xfeff 内容概要 训练集 测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数 选择模型 选择特征改善交叉验证 1 模型验证回顾 进行模型验证的一个重要目的是要选出一个最合适的模型 xff
  • 【scikit-learn】网格搜索来进行高效的参数调优

    xfeff xfeff 内容概要 如何使用K折交叉验证来搜索最优调节参数如何让搜索参数的流程更加高效如何一次性的搜索多个调节参数在进行真正的预测之前 xff0c 如何对调节参数进行处理如何削减该过程的计算代价 1 K折交叉验证回顾 交叉验证
  • 【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等

    xfeff xfeff 内容概要 模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵 xff08 confusion matrix xff09 是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能
  • 【Scala-ML】使用Scala构建机器学习工作流

    引言 在这一小节中 xff0c 我将介绍基于数据 xff08 函数式 xff09 的方法来构建数据应用 这里会介绍monadic设计来创建动态工作流 xff0c 利用依赖注入这样的高级函数式特性来构建轻便的计算工作流 建模过程 在统计学和概