PySpark 中的 PCA 分析

2024-03-25

看着http://spark.apache.org/docs/latest/mllib-Dimensionality-reduction.html http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html。这些示例似乎只包含 Java 和 Scala。

Spark MLlib 支持 Python 的 PCA 分析吗？如果是这样，请给我举一个例子。如果没有，如何将 Spark 与 scikit-learn 结合起来？

火花 >= 1.5.0

虽然 PySpark 1.5 引入了分布式数据结构（pyspark.mllib.linalg.distributed）看起来API相当有限并且没有实现computePrincipalComponents method.

可以使用from pyspark.ml.feature.PCA or pyspark.mllib.feature.PCA尽管。在第一种情况下，预期输入是带有向量列的数据框：

from pyspark.ml.feature import PCA as PCAml
from pyspark.ml.linalg import Vectors  # Pre 2.0 pyspark.mllib.linalg

df = sqlContext.createDataFrame([
   (Vectors.dense([1, 2, 0]),),
   (Vectors.dense([2, 0, 1]),),
   (Vectors.dense([0, 1, 0]),)], ("features", ))

pca = PCAml(k=2, inputCol="features", outputCol="pca")
model = pca.fit(df)
transformed = model.transform(df)

在 Spark 2.0 或更高版本中，您应该使用pyspark.ml.linalg.Vector代替pyspark.mllib.linalg.Vector.

For mllib版本你需要一个RDD of Vector:

from pyspark.mllib.feature import PCA as PCAmllib

rdd = sc.parallelize([
    Vectors.dense([1, 2, 0]),
    Vectors.dense([2, 0, 1]),
    Vectors.dense([0, 1, 0])])

model = PCAmllib(2).fit(rdd)
transformed = model.transform(rdd)

火花

PySpark

操作顺序或多或少类似于下面的顺序。分布式步骤后跟操作名称，局部用“*”和可选方法。

Create RDD[Vector]其中每个元素都是输入矩阵中的一行。您可以使用numpy.ndarray对于每一行（prallelize)
计算按列统计数据 (reduce)
使用 2. 的结果使矩阵居中 (map)
计算每行的外积（map outer)
对结果求和得到协方差矩阵（reduce +)
收集并计算特征分解 * (numpy.linalg.eigh)
选择前 n 个特征向量 *
投影数据（map)

关于 Sklearn。您可以使用 NumPy（它已经在Mllib)、SciPy、Scikitlocally像往常一样对司机或工人进行操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

apachesparkmllib

PCA

apachesparkml

PySpark 中的 PCA 分析的相关文章

嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

如何使 HIbernate 获取根实体的所有属性并仅获取关联实体的特定属性？

我有根实体Hostel及其单一关联User owner 当我取东西时Hostel我需要急切地获取实体User owner 但只有owner的 3 个属性 userId firstName lastName 现在我的条件查询是 Criteri
这是有效的 C 代码，但不是有效的 C++ 代码？

在我正在使用的一些库中用 C 编写 StorePGM image width height filename char image int width height char filename something something 所有
在 Selenium Python 绑定中设置页面加载超时

我正在使用带有 Selenium 模块的 Python 编写一个机器人当我用我的机器人打开一个网页时由于该网页包含的外部源比 dom 多所以需要花费很多时间才能加载所有页面我使用显式和隐式等待来消除这个问题因为我只想加载特定元素而
Spring获取ServletContext并将其作为Bean提供

I want to get the ServletContext in a Java Spring Webproject and use it to get the absolute path of my web application p
如何从 AWS AppStream 中获取当前用户？

我正在通过 AWS AppStream 对应用程序的部署进行原型设计对流的访问通过 Web 门户使用 SAML 进行管理我的应用程序需要知道用户的身份我可以提示他们但我不想让他们同时登录门户和应用程序我想获取他们在门户网站上提供
如何获取雪花中表的上次访问时间戳？

我想获取雪花中表的上次访问时间戳并不总是理想的但对于一次性问题找到此问题的一种快速方法是使用 QUERY HISTORY SELECT START TIME FROM TABLE INFORMATION SCHEMA QUERY HIS
Presto 中包含 ' ' 字符的键的 JSON_EXTRACT 问题

我正在使用 Presto 0 163 来查询数据并尝试从 json 中提取字段我有一个如下所示的 json 它出现在 style attributes 列中 attributes Brand Fit Name Regular Fit F
AndroidManifest.xml 中的属性 application@allowBackup value=(false) 也存在于 [:barcodescanner:] AndroidManifest.xml value=(true)

我尝试将 ionic 3 应用程序清单中的 allowedBackup 属性设置为 false 但 gradle 抱怨以下错误 AndroidManifest xml 4 18 45 中的属性 application allowBackup
iOS 7 图标文件名

如何命名 Xcode 5 的图标文件它总是给出错误说明应用程序不在顶层这真的很令人沮丧有人可以给我每个分辨率都必须使用的文件名吗 ios 7 兼容应用程序的图标文件名和大小如下 iPhone 图标 png 57 57 电子邮件受保护
Amazon AWS Cognito 和 Python Boto3 建立 AWS 连接并将文件上传到 Bucket

我正在尝试使用 AWS cognito 服务来验证和上传文件我已获得了 RegionType identityPool AWS 账户 ID 和 UnAuthRole 我还知道生产和开发桶的名称我想我正在设置 AWS 访问密钥和 AWS
PHP 延迟 10 分钟后执行代码

我需要在事件表单提交后延迟 10 分钟执行 PHP 中的某些代码例如发送电子邮件实现这一目标的最佳方法是什么我唯一的选择是每分钟运行一次 Cronjob 吗这对于共享主机实用吗使用 cronjobs 是最好的方法如果您无法
android 地图异步加载覆盖项

我有一个地图视图其中包含我想要加载的数千个项目显然在创建视图时我无法加载它们我想我必须根据当前显示的内容异步加载它们如何仅加载屏幕上显示的地图部分中的项目使用 AsyncTask 加载每个屏幕的各个层使用 MapView ap
latin-1 转 ascii

我有一个带有重音拉丁字符的 unicode 字符串例如 n unicode Wikip dia le projet d encyclop die utf 8 我想将其转换为普通的 ascii 即 Wikipedia le projet d
R 将列表列表转换为数据帧

我需要处理受密码保护的 Excel xlsx 工作簿中提供的数据出于法律原因我无法创建不受保护的 Excel 文件或 csv 文件等并从那里进行处理所有 Excel 导入包都无法处理受密码保护的工作簿从这个答案将受密码保护的 xls
双型比较器

我编写了以下代码 public class NewClass2 implements Comparator
如何在android项目中安装openssl.so和libssl.so？

我目前面临 openssl 的构建问题我首先建造了libssl so and libcrypto so与 ndk build 守护者项目共享库第二步我通过执行以下操作将库与我的 Android 项目集成如本中所述topic http
在 javascript 中模拟打字的外观，而不是实际的按键

我正在尝试编写一个简单的函数让它看起来好像有人正在输入textarea 这是我的函数如果它很糟糕请原谅我但我通常不使用 javascript 这console log 部分工作正常但由于某种原因我无法让这个脚本按照我期望的方式更新
转义并在邮件客户端中显示（mailto 链接）

我有一个像这样的 JavaScript 函数 var strBody encodeURI window location href var strSubject encodeURI document title var mailto lin
使用 str.format() 访问对象属性

我有一个带有属性的 Python 对象a b c 我仍然使用旧的字符串格式所以我通常会手动打印这些 print My object has strings a s b s c s obj a obj b obj c 最近我的字符串变得超
PySpark 中的 PCA 分析

看着http spark apache org docs latest mllib Dimensionality reduction html http spark apache org docs latest mllib dimensio

PySpark 中的 PCA 分析

火花 >= 1.5.0

火花

PySpark 中的 PCA 分析 的相关文章

随机推荐

热门标签

PySpark 中的 PCA 分析的相关文章