Spark MLlib 和 Spark ML 中的 PCA

2024-02-24

Spark 现在有两个机器学习库——Spark MLlib 和 Spark ML。它们在实现的内容上确实有些重叠，但据我了解（作为整个 Spark 生态系统的新手）Spark ML 是可行的方法，而 MLlib 仍然存在主要是为了向后兼容。

我的问题非常具体并且与PCA相关。在MLlib http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html#principal-component-analysis-pca实施似乎有列数的限制

Spark.mllib 支持以面向行格式存储的高瘦矩阵和任何向量的 PCA。

另外，如果你看一下 Java 代码示例，还有这个

列数应该很小，例如小于 1000。

另一方面，如果你看看ML http://spark.apache.org/docs/latest/ml-features.html#pca文档中，没有提到任何限制。

所以，我的问题是——Spark ML 中也存在这种限制吗？如果是这样，为什么会有限制？即使列数很大，是否有任何解决方法可以使用此实现？

PCA 包括找到一组可以用来表示数据的去相关随机变量，并根据它们保留的方差量按降序排序。

可以通过将数据点投影到特定的正交子空间来找到这些变量。如果您的（以均值为中心的）数据矩阵是X，这个子空间由特征向量组成X^T X.

When X尺寸很大n x d，你可以计算X^T X通过计算矩阵每一行本身的外积，然后将所有结果相加。这当然适用于简单的映射缩减过程，如果d很小，无论有多大n是。这是因为每行本身的外积是d x d矩阵，每个工作人员必须在主内存中对其进行操作。这就是为什么您在处理许多列时可能会遇到麻烦。

如果列数很大（而行数不是那么多），你确实可以计算 PCA。只需计算（以平均值为中心）转置数据矩阵的 SVD，并将其乘以所得特征向量和特征值对角矩阵的逆矩阵。这就是正交子空间。

底线：如果spark.ml实现每次都遵循第一种方法，那么限制应该是相同的。如果他们检查输入数据集的维度来决定是否应该采用第二种方法，那么如果行数很少，那么在处理大量列时就不会有问题。

不管怎样，限制是由你的工作人员拥有多少内存决定的，所以也许他们让用户自己达到上限，而不是提出一个可能不适用于某些人的限制。这可能就是他们决定不在新文档中提及限制的原因。

Update:源代码显示，无论输入的维度如何，他们每次都会采用第一种方法。实际限制是 65535，达到 10,000 时他们会发出警告。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark MLlib 和 Spark ML 中的 PCA 的相关文章

如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中

随机推荐

使用 JSONpath 从 JSON 文件中提取叶子

我有来自 REST API 的 JSON 输出输出如下所示 sprints id 10516 sequence 10516 name SP121 BRK relief state CLOSED linkedPagesCount 0 id
Ansible：regex_search 过滤器比较以及如何调试 when 子句

今天我花了一些时间尝试编写一些 Ansible 脚本以便仅在相关命令输出中不存在相应行的情况下运行命令经过一番尝试和错误后我得到了一些对我有用的东西但我不清楚为什么我与空字符串的初始比较不起作用这是一个演示我的问题的剧本 name
计算二进制数字范围内 1 的数量的算法

所以我刚回来ACM 编程竞赛表现还不错但有一个问题没有一支球队能解决问题从大于 0 的整数 N0 开始令 N1 为 N0 的二进制表示形式中 1 的数量因此如果N0 27 N1 4 对全部i gt 0 令 Ni 为二进制表示中
java中的wav幅度（立体声或更多通道）

大家好有谁知道如何用 Java 查找 WAV 文件中的幅度吗如果文件是立体声的或有更多通道如何将数据放入数组中 Thanks 处理 WAV 文件头 https ccrma stanford edu courses 422 winte
将应用程序包上传到 Google Play 控制台时出现有关“AD_SERVICES_CONFIG”的错误

详细的错误消息如下任何想法非常感谢 Your app is not allowed to specify AD SERVICES CONFIG property in the manifest 我尝试向清单添加权限但仍然遇到相同的错误
Angular 4 数组验证

我需要帮助formArray验证在反应形式我想验证数组中的每个项目但我不知道该怎么做谢谢 html代码
JS - 合并至少共享一个共同值的数组

如果我有以下数组 var myArr 0 1 2 1 2 6 9 10 10 11 11 12 13 如何合并至少共享一个公共值的数组以产生以下输出 var myMergedArr 0 1 2 6 9 10 11 12 13 Thanks
使用 Gson 将单键值转为 Json

我有一个键值对需要使用 Gson 将其转换为 Json 我该怎么做呢说我有 class MyClass String key String value bunch of other fields public String single
如何在 Vista 中使用 SetWindowsHookEx 并通过 UAC 挂钩管理应用程序？

我试图弄清楚是否有一种方法可以使用 SetWindowsHookEx 并能够影响在 Vista 上以管理员权限运行且启用了 UAC 的应用程序这个应用程序需要向其他窗口的标题栏添加一个小按钮以启用一些多显示器感知处理我本以为这是不可能
自动映射器无法映射到 IEnumerable

我有两个这样的课程 public class SentEmailAttachment ISentEmailAttachment public SentEmailAttachment public string FileName get se
matplotlib：figimage 未显示在 Jupyter 笔记本中

我正在尝试以其真实尺寸渲染图像未缩放或拉伸使用 matplotlib 执行此操作的最简单方法似乎是figimage 但是当我尝试在 Jupyter 笔记本中使用它时该图没有显示其他图显示良好这似乎只影响figimage 正如您所
Android 构建错误：“未找到 lStar...”

尝试在模拟器中构建我的应用程序后出现这样的错误 Users joel gradle caches transforms 3 06231cc1265260b25a06bafce7a4176f transformed core 1 7 0 al
将二进制字符串转换为二进制或十进制值

有没有什么函数可以将二进制字符串转换为二进制或十进制值如果我有一个二进制字符串000101 我应该怎么做才能将其转换为5 你可以使用packBits函数在base包裹请记住此功能需要非常具体的输入 yy lt intToBits 5
如何使用 PHP 与 Google Analytics Data API (GA4) 结合使用多个过滤器

所以这将是我在这里的第一个问题我会尽力遵守社区规则我正在尝试使用 PHP 在 Google Analytics Data API GA4 中使用多个过滤器我已经成功地能够使用一个过滤器并将其显示在自定义仪表板中下面是获取以值开头的
git 将提交消息存储在哪里

我正在做一次提交发现我犯了一个错误由于关闭 nano 会提交更改因此我强制关闭了终端这将 swp 文件留在某处阻止我将来提交 Error in nano malloc memory corruption fast 0x000000
在我的应用程序中获取其他应用程序图标图像

在我的应用程序中我显示了应用程序商店中的一些应用程序列表我想在我的应用程序中获取这些应用程序的图标图像我只是搜索但没有得到任何相关的帖子有什么办法可以得到吗苹果允许获取吗请问有什么办法吗谢谢您的帮助苹果有一个JSON服务为此
在 AWS elastic beanstalk 上使用 webpacker gem 部署 Rails React 应用程序

我正在尝试使用 AWS Elastic Beanstalk 部署使用 webpacker gem 创建的 Rails 5 1 React 应用程序问题是我不断收到以下错误 Webpacker requires Node js gt 6 0
如何确定客户端连接到 C 中的 INADDR_ANY 侦听器套接字所使用的 IP

我有一个用 C 编写的网络服务器应用程序侦听器使用 INADDR ANY 绑定因此它可以通过安装它的主机的任何 IP 地址接受连接我需要确定客户端在建立连接时使用哪个服务器的 IP 地址实际上我只需要知道它们是否通过环回地址 127
ruby 有真正的多线程吗？

我知道 ruby 使用的协作线程绿线 http en wikipedia org wiki Green threads 如何在应用程序中创建真正的操作系统级线程以便利用多个 cpu 核心进行处理更新了 J rg 2011 年 9
Spark MLlib 和 Spark ML 中的 PCA

Spark 现在有两个机器学习库 Spark MLlib 和 Spark ML 它们在实现的内容上确实有些重叠但据我了解作为整个 Spark 生态系统的新手 Spark ML 是可行的方法而 MLlib 仍然存在主要是为了向后兼容我

Spark MLlib 和 Spark ML 中的 PCA

Spark MLlib 和 Spark ML 中的 PCA 的相关文章

随机推荐

热门标签