PySpark PCA：避免 NotConvergedException

2024-03-31

我试图通过 ml.linalg 方法使用 PCA 来减少广泛的数据集（51 个特征，约 1300 个个体），如下所示：

1）将我的列命名为一个列表：

features = indi_prep_df.select([c for c in indi_prep_df.columns if c not in{'indi_nbr','label'}]).columns

2）导入必要的库

from pyspark.ml.feature import PCA as PCAML
from pyspark.ml.linalg import Vector
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import DenseVector

3）将特征折叠为 DenseVector

indi_feat = indi_prep_df.rdd.map(lambda x: (x[0], x[-1], DenseVector(x[1:-2]))).toDF(['indi_nbr','label','features'])

4）删除除了保留索引的功能之外的所有内容：

dftest = indi_feat.drop('indi_nbr','label')

5）实例化PCA对象

dfPCA = PCAML(k=3, inputCol="features", outputCol="pcafeats")

6）并尝试拟合模型

PCAout = dfPCA.fit(dftest)

但我的模型无法收敛（错误如下）。我尝试过的事情： - 均值填充或零填充 NA 和 Null 值（视情况而定） - 减少特征数量（减少到25个，然后我改用SKlearn的PCA）

    Py4JJavaError: An error occurred while calling o2242.fit.
: breeze.linalg.NotConvergedException: 
    at breeze.linalg.svd$.breeze$linalg$svd$$doSVD_Double(svd.scala:110)
    at breeze.linalg.svd$Svd_DM_Impl$.apply(svd.scala:40)
    at breeze.linalg.svd$Svd_DM_Impl$.apply(svd.scala:39)
    at breeze.generic.UFunc$class.apply(UFunc.scala:48)
    at breeze.linalg.svd$.apply(svd.scala:23)
    at org.apache.spark.mllib.linalg.distributed.RowMatrix.computePrincipalComponentsAndExplainedVariance(RowMatrix.scala:389)
    at org.apache.spark.mllib.feature.PCA.fit(PCA.scala:48)
    at org.apache.spark.ml.feature.PCA.fit(PCA.scala:99)
    at org.apache.spark.ml.feature.PCA.fit(PCA.scala:70)

我的配置是 50 个执行器，每个执行器 6GB，所以我不认为这是资源不足的问题（而且我在这里没有看到任何有关资源的信息）。

我的输入因子是百分比、整数和 2 位小数浮点数的混合，全部为正数和序数。这会导致收敛困难吗？

当我将 PySpark DF 转换为 Pandas DF 后，SKLearn 方法的收敛速度很快，没有遇到任何问题。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

PCA

decomposition

PySpark PCA：避免 NotConvergedException 的相关文章

如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
如何使用 pyspark 从 s3 存储桶读取 csv 文件

我正在使用 Apache Spark 3 1 0 和 Python 3 9 6 我正在尝试从 AWS S3 存储桶读取 csv 文件如下所示 spark SparkSession builder getOrCreate file s3 b
无法找到 PySpark 内核 - awsglue 与 vscode 的交互式会话

我最近按照说明使用 vscode 安装 Glue Interactive 会话但找不到 pyspark 内核只能看到 Glue Spark 我想我已经安装了下面的所有内容顺便说一句我在 Windows 上 pip3 install
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
带插入符的主成分分析

我正在使用 Caret 的 PCI 预处理 multinomFit lt train LoanStatus train method multinom std TRUE family binomial metric ROC thresh 0
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
PCA 图中带有名称的工具提示

我想用 ggplotly 生成交互式绘图工具提示应该显示变量的名称 interactive lt ggplotly pca dynamicTicks T tooltip c x y label list pca 是 PCA 的可视化 su
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f

随机推荐

DebugView 的替代品？

我在用着系统内部 http en wikipedia org wiki WinternalsDebugView 用于在测试过程中进行调试记录它非常好不过我在想是否有更先进的工具我正在寻找的功能实时过滤器记录所有内容好吧所有
Puppeteer：将循环结构转换为 JSON 您是否传递嵌套的 JSHandle？

我正在尝试抓取一个一页网站有多种选择组合会导致不同的搜索重定向我在里面写了一个for循环page evaluate的回调函数来单击不同的选择并在每个按钮中进行单击搜索但是我收到错误将循环结构转换为 JSON 您是否传递嵌套的 JS
Vim“较早”和“较晚”命令未按预期工作

首先查看 Vim 中的时间旅行命令即ea N s and lat N s 我以为这会很简单但是它并没有像预期的那样对我有用现在我完全困惑了这就是发生的事情我启动了 Vim 并开始编写以下几行 say first line wri
Visual Studio 2022 中的解决方案资源管理器

我刚刚安装了 Visual Studio 2022 professional 安装很顺利没有失败但是当我尝试创建任何项目时我得到这样的解决方案资源管理器 Webapplication1 0项目并且它没有显示带有控制器和启动文件等的
在 Symfony 2.3 项目上集成 Twitter Bootstrap 3.2

我尝试将 Twitter Bootstrap 3 2 集成到我的 Symfony 2 3 项目中刚刚找到 Bootstrap 3 0 的教程与 leafo lessphp 但这不再受支持此外它不适用于 Bootstrap 3 2 我发现
将 pandas 数据框列映射到字典

我有一个数据框的案例其中包含高基数的分类变量许多唯一值我想将该变量重新编码为一组值最常见的值并用一个包罗万象的类别其他替换所有其他值举一个简单的例子以下是应保持不变的两个值 top values apple orange
是否可以撤销提交？

假设我们有一个存储库和 5 个提交 commit 1 commit 2 commit 3 commit 4 commit 5 现在我意识到提交 4 和 5 是一个坏主意我想完全删除提交 4 和 5 中提交的所有更改该怎么做 git re
在clojure中，如何将具有相同键的映射组合的多个映射合并到一个列表中？

在 Clojure 中我想将多个映射组合成一个映射其中具有相同键的映射被组合成一个列表例如 humor happy humor sad humor happy weather sunny 应该导致 weather sunny humo
如何从资源文件夹中获取文件。 Spring框架

我正在尝试解组我的 xml 文件 public Object convertFromXMLToObject String xmlfile throws IOException FileInputStream is null File fil
分层架构中的实体框架

最近我读了一篇文章分层架构中的实体框架 http msdn microsoft com en us magazine cc700340 aspx 并且写道我们可以通过 WCF 将 EF 实体发送到客户端但是在 Stackoverflow
高效的 4x4 矩阵乘法（C 与汇编）

我正在寻找一种更快更棘手的方法来用 C 语言将两个 4x4 矩阵相乘我目前的研究重点是具有 SIMD 扩展的 x86 64 汇编到目前为止我已经创建了一个比简单的 C 实现快大约 6 倍的函数这超出了我对性能改进的预期不幸的是
CSS flexbox 包装未调整大小以适应内容[重复]

这个问题在这里已经有答案了一个简化的 plunkr 来显示问题 https plnkr co edit mHTHLEumQ04tInFVAz3z p preview https plnkr co edit mHTHLEumQ04tInFV
GCP Cloud Run：无法创建服务

我正在尝试将 Cloud run 与私有 GKE 集群结合使用我使用以下命令创建了集群 gcloud beta container clusters create cluster name create subnetwork name c
标准 ORMLite 方法中的 CursorWindowAllocationException

我需要在数据库中保存一些对象我在我的 Dao 类中使用这段代码 public void saveActions List
如何知道缩放级别以在谷歌标记集群内显示标记

好吧几乎所有内容都在标题中我有数千个带有谷歌标记集群的标记不是谷歌标记集群加上让我知道它是否有帮助一切都很完美 BUT 当我触发与特定标记相关的事件时我想单独显示该标记不再在群集内由于标记的空间重新分配并不均匀在某些地方
如何查看Core Data中存储的数据？

我正在为我的应用程序创建一个核心数据模型我希望能够查看它的内部看看我在那里存储了什么有没有一个比搜索后备存储更简单的方法我的应该是 SQLite 并从那里读取它看起来不太像苹果风格当您的应用程序在模拟器中运行并创建持久存储文件后
PDFBox 是否允许从 AcroForm 中删除一个字段？

我正在使用阿帕奇PDF盒子2 0 8 https mvnrepository com artifact org apache pdfbox pdfbox 2 0 8并试图删除一个字段但找不到方法来做到这一点就像我可以用 iText 做的
Excel VBA 条件格式未执行

这很奇怪我正在从 MS Access 2003 VBA 创建 Excel 2003 电子表格编码包括条件格式如果单元格值大于 a value 则为红色如果小于 a value 则为绿色即使在生成电子表格时成功创建了 CF 公式但
从文件中读取最后一行

我遇到了一个问题我在 Linux 机器上有一个日志其中写入了多个正在运行的进程的输出这个文件有时会变得非常大我需要读取该文件的最后一行问题是此操作将经常通过 AJAX 请求调用当该日志的文件大小超过 5 6MB 时这对服务器来
PySpark PCA：避免 NotConvergedException

我试图通过 ml linalg 方法使用 PCA 来减少广泛的数据集 51 个特征约 1300 个个体如下所示 1 将我的列命名为一个列表 features indi prep df select c for c in indi pre

PySpark PCA：避免 NotConvergedException

PySpark PCA：避免 NotConvergedException 的相关文章

随机推荐

热门标签