Spark 中的简单矩阵乘法

2024-01-01

我正在努力处理一些非常基本的 Spark 代码。我想定义一个矩阵x有 2 列。这是我尝试过的：

scala> val s = breeze.linalg.linspace(-3,3,5)
s: breeze.linalg.DenseVector[Double] = DenseVector(-3.0, -1.5, 0.0, 1.5, 3.0) // in this case I want s to be both column 1 and column 2 of x

scala> val ss = s.toArray ++ s.toArray
ss: Array[Double] = Array(-3.0, -1.5, 0.0, 1.5, 3.0, -3.0, -1.5, 0.0, 1.5, 3.0)

scala> import org.apache.spark.mllib.linalg.distributed.RowMatrix
import org.apache.spark.mllib.linalg.distributed.RowMatrix

scala> val mat = new RowMatrix(ss, 5, 2)
<console>:17: error: type mismatch;
 found   : Array[Double]
 required: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]
       val mat = new RowMatrix(ss, 5, 2)

我不明白如何获得正确的转换以便将值传递给分布式矩阵^

编辑：也许我已经能够解决：

scala> val s = breeze.linalg.linspace(-3,3,5)
s: breeze.linalg.DenseVector[Double] = DenseVector(-3.0, -1.5, 0.0, 1.5, 3.0)

scala> val ss = s.to
toArray         toDenseMatrix   toDenseVector   toScalaVector   toString        
toVector        

scala> val ss = s.toArray ++ s.toArray
ss: Array[Double] = Array(-3.0, -1.5, 0.0, 1.5, 3.0, -3.0, -1.5, 0.0, 1.5, 3.0)

scala> val x = new breeze.linalg.Dense
DenseMatrix   DenseVector   

scala> val x = new breeze.linalg.DenseMatrix(5, 2, ss)
x: breeze.linalg.DenseMatrix[Double] = 
-3.0  -3.0  
-1.5  -1.5  
0.0   0.0   
1.5   1.5   
3.0   3.0   

scala> val xDist = sc.parallelize(x.toArray)
xDist: org.apache.spark.rdd.RDD[Double] = ParallelCollectionRDD[0] at parallelize at <console>:18

像这样的东西。此类型检查，但由于某种原因不会在我的 Scala 工作表中运行。

import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.linalg.distributed._
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD

val conf = new SparkConf().setAppName("spark-scratch").setMaster("local")
val sc= new SparkContext(conf)

// the values for the column in each row
val col = List(-3.0, -1.5, 0.0, 1.5, 3.0) ;

// make two rows of the column values, transpose it,
// make Vectors of the result
val t = List(col,col).transpose.map(r=>Vectors.dense(r.toArray))

// make an RDD from the resultant sequence of Vectors, and 
// make a RowMatrix from that.
val rm = new RowMatrix(sc.makeRDD(t));

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

matrix

apachespark

Spark 中的简单矩阵乘法的相关文章

更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
在 Scala 中扩展函数1

在几个例子中我看到一个对象或一个类扩展Function1 E g object Cash extends CashProduct gt String in Scala 的隐藏功能 https stackoverflow com quest
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse
使用泛型全面实现特征

我正在通过实现矩阵数学来练习 Rust 但遇到了一些障碍我定义了我认为与矩阵相关的特征 trait Matrix
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
Scala 中的条件未来

给定这两个 future 仅当条件为真时我才需要运行第一个 future 请参阅if y gt 2 但我有一个例外Future filter predicate is not satisfied 这是什么意思以及如何修复该示例 object
Java时间转正常格式

我有 Java 时间1380822000000 我想转换为我可以阅读的内容 import java util Date object Ws1 val a new Date 1380822000000 toString 导致异常 warnin
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
伴随对象中的方法编译成scala中的静态方法？

看起来 scala 将伴生对象中的方法编译为静态方法这使得从 java 代码中调用它们变得更容易一些例如您可以编写 CompanionObject method 而不是 CompanionObject MODULE method 然而
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
使用 Reader Monad 进行依赖注入

我最近看到了谈话极其简单的依赖注入 http www youtube com watch v ZasXwtTRkio and 无需体操的依赖注入 http vimeo com 44502327关于 Monads 的 DI 并留下了深刻的印象
Scala 如何使用我的所有核心？

object PrefixScan sealed abstract class Tree A case class Leaf A a A extends Tree A case class Node A l Tree A r Tree A
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
如何插入UUID的值？

我在 Play Framework 2 3 支持的 postgresql 9 4 中使用 anorm 2 4 给出一个这样的模型 case class EmailQueue id UUID send from String send to
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

随机推荐

GNU 工具链如何决定使用近跳转指令与短跳转指令？

我有一些代码gcc 4 8 5 如果重要的话在两台不同的机器上编译成几乎相同的二进制文件除了一个地方其中一台机器上的工具链中的某些东西决定使用近 JE指令而另一台机器上的工具链决定使用简短 JE 指令 41e274 85 ed
Haskell 元组构造函数 (GHC) 以及语言与其实现之间的分离

当我意识到这一点时哈斯克尔再次让我大吃一惊 x y 只是语法糖 x y 当然我想将其扩展到更大的元组但 x y z Gave me x y z 这不是我想要的一时兴起我尝试了 x y z 它起作用了给出了我想要的 x y z 这
如何导入从html导入.json的.js

我不是说英语的公民我英语不好但我做得最好我正在尝试导入一个从 html 导入 json 的 js 文件 js import JSON from json menu json function function parseMenu ul
我如何在同时具有“script”和“doc”的 ES 上发出单个更新请求..？

我的文档请求 POST test v2 update Z nM 2wBjkGOA r6ArOb doc CD middle prakash first raj doc as upsert true 我的脚本请求 POST test
将编码字符添加到 url 会破坏 htaccess

这是我的代码 RewriteEngine on RewriteRule page index php url 1 NC 当我访问时page http google com http google com 我相信你需要B escape htt
mv 包裹在 shell 脚本中的 if 内

你怎么做到这一点我的想法是这样的另外我需要使用 fi 并完成吗或仅其中之一 if mv 1 txt gt 2 txt 0 then echo Success else echo Failure fi done 在 BASH 中只有这
多重返回：哪一个设置最终的返回值？

鉴于此代码 String test try return 1 finally return 2 语言规范是否定义了调用的返回值test 换句话说在每个 JVM 中它总是相同的吗在 Sun JVM 中返回值是2 但我想确定这不依赖于虚
Dask 连接的简单方法（水平，轴=1，列）

Action将两个 csv data csv 和 label csv 读取到单个数据帧 df dd read csv data files delimiter header None names x y z intensity r g b
基于另一张工作表中的公式的条件格式

我有 2 张 Excel 2007 PT PT 表其中一个 sheet1 有多个要验证的列另一个 base valid 有 5 列需要验证我正在尝试使用宏验证 regioes M2 列 Sub Validar Regioes Dim
数据分割时使用 scikit-learn 标准化 PCA

我有一个后续问题如何使用 PCA 和 scikit learn 进行标准化 https stackoverflow com questions 25475465 how to normalize with pca and scikit l
jest 无法识别 URL 构造函数抛出的 TypeError

Jest toThrow TypeError 与抛出的 TypeError 不匹配new URL构造函数这是一个错误还是我做错了什么笑话版本是29 4 2 测试用例 it throws TypeError when url is inv
JavaFX ContextMenu 如何获取单击的对象？

我正在学习 javafx scene control ContextMenu 现在我面临一个问题如何从 EventHandler 获取单击的对象 event source 和 event target 都返回 MenuItem 让我用一个
使用 Valgrind 运行时 mmap 返回 EINVAL

我针对 Valgrind 运行的 mips32 应用程序在 mmap 函数中失败如果我单独运行它工作正常但是当我针对 valgrind 运行它时它每次都会失败并显示 EINVAL void mem uint32 t mmap NULL
Write系统调用直接将数据写入磁盘？

我读过几个问题 here https stackoverflow com questions 1450551 buffered i o vs unbuffered io 与此相关但我仍然有些困惑我的理解是 write 系统调用将数据放入
lucene如何索引文档？

我读了一些关于Lucene的文档我还阅读了此链接中的文档 http lucene sourceforge net talks pisa http lucene sourceforge net talks pisa 我不太明白Lucene是
针对写入量大的 Oracle 应用程序进行优化？

对于主要写入更新 Oracle 数据库的应用程序可以使用哪些有用的 Oracle 优化这里的一般使用模式不是像大多数情况那样进行网络服务或日志记录而是保存系统的复杂状态因此唯一需要读取的时间是系统启动时之后更新并创建所有方式因
在 Android 上使用选定的 UID 模拟 NFC 卡

我想问 2 个关于 NFC 卡模拟的问题我可以模拟包含我选择的 uid 的 NFC 卡吗 I read HCE https developer android com guide topics connectivity nfc hce h
cuda内核调用是同步还是异步

我读到可以使用内核启动来同步不同的块即如果我希望所有块在继续操作 2 之前完成操作 1 我应该将操作 1 放在一个内核中将操作 2 放在另一个内核中这样我就可以实现块之间的全局同步然而 cuda c 编程指南提到内核调用是异步的
对url中的中文字符进行转义？

有时汉字会转义为以下形式 B9 F3 D6 DD C3 A9 CC A8 如何将这些字符转换回 Python 中可读的汉字您可以使用urllib2 unquote像这样 gt gt gt import urllib2 gt gt gt
Spark 中的简单矩阵乘法

我正在努力处理一些非常基本的 Spark 代码我想定义一个矩阵x有 2 列这是我尝试过的 scala gt val s breeze linalg linspace 3 3 5 s breeze linalg DenseVector D

Spark 中的简单矩阵乘法

Spark 中的简单矩阵乘法 的相关文章

随机推荐

热门标签

Spark 中的简单矩阵乘法的相关文章