Apache Spark：在分区上并行应用 sklearn 的函数

2024-04-24

我是大数据和 Apache Spark 的新手（也是一名在导师指导下工作的本科生）。

是否可以将函数（即样条曲线）仅应用于 RDD 的分区？我正在尝试实现论文中的一些工作here http://sites.stat.psu.edu/~rli/research/huge.pdf.

《Learning Spark》一书似乎表明这是可能的，但没有解释如何实现。

“如果您有许多小数据集想要训练不同的学习模型，那么最好使用单节点学习库（例如 Weka 或 SciKit-Learn）在每个节点上，也许调用它跨节点并行使用 Sparkmap()."

事实上，我们有一个库可以做到这一点。我们有几个 sklearn 变换器和预测器已启动并正在运行。它的名字是sparkit-learn。
从我们的例子来看：

from splearn.rdd import DictRDD  
from splearn.feature_extraction.text import SparkHashingVectorizer  
from splearn.feature_extraction.text import SparkTfidfTransformer  
from splearn.svm import SparkLinearSVC  
from splearn.pipeline import SparkPipeline  

from sklearn.feature_extraction.text import HashingVectorizer  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.svm import LinearSVC  
from sklearn.pipeline import Pipeline  

X = [...]  # list of texts  
y = [...]  # list of labels  
X_rdd = sc.parallelize(X, 4)
y_rdd = sc.parralelize(y, 4)
Z = DictRDD((X_rdd, y_rdd),
            columns=('X', 'y'),
            dtype=[np.ndarray, np.ndarray])

local_pipeline = Pipeline((
    ('vect', HashingVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', LinearSVC())
))
dist_pipeline = SparkPipeline((
    ('vect', SparkHashingVectorizer()),
    ('tfidf', SparkTfidfTransformer()),
    ('clf', SparkLinearSVC())
))

local_pipeline.fit(X, y)
dist_pipeline.fit(Z, clf__classes=np.unique(y))

y_pred_local = local_pipeline.predict(X)
y_pred_dist = dist_pipeline.predict(Z[:, 'X'])

你可以找到它here https://github.com/lensacom/sparkit-learn.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Apache Spark：在分区上并行应用 sklearn 的函数的相关文章

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从大文本文档集合 TF IDF 向量在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送稀疏向量由 HashingTF transform 函数创建无论我使用的并行程度如何通过合并函数 KMea
实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
了解 mesos 上 Spark 作业的资源分配

我正在 Spark 中开发一个项目最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理我现在发现自己对新系统下提交作业时如何分配资源感到困惑在独立模式下我使用了类似的东西遵循一些建议这篇 Cloude
Spark Dataframe 列可为 null 的属性更改

我想更改 Spark Dataframe 中特定列的可为空属性如果我当前打印数据框的模式它看起来如下所示 col1 string nullable false col2 string nullable true col3 string
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
优化spark sql中分区数据写入S3

我在每个 Spark 作业运行中从 HDFS 读取大约 700 GB 的数据我的工作读取这些数据过滤大约 60 的数据将其分区如下 val toBePublishedSignals hiveCtx sql some query toB
在 Spark Dataframe 中将空值替换为 null

我有一个包含 n 列的数据框我想用空值替换所有这些列中的空字符串我尝试使用 val ReadDf rawDF na replace columnA Map gt null and val ReadDf rawDF withColumn
左反加入Spark？

我定义了两个表如下所示 val tableName table1 val tableName2 table2 val format new SimpleDateFormat yyyy MM dd val data List List mi
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master

随机推荐

Shadow DOM v1 CSS 填充

https developers google com web fundamentals getting started primers shadowdom https developers google com web fundament
如何在实体框架代码优先中设置 0..* 关系？

我有两个类的下一个代码 public class Object public int ObjectID get set public int Object2ID get set public virtual Object2 Object2
MediaButtonIntentReceiver 在 Android 4.0+ 中不工作

目标是拦截来自耳机以及蓝牙的广播以响应来自耳机的不同类型的点击来改变媒体播放器该解决方案适用于 ICS 之前的所有版本这是我尝试过的一些代码和事情 private BroadcastReceiver mediaButtonReceiv
Wicket、页面堆栈和内存使用情况

Wicket 应用程序序列化并缓存所有页面以支持有状态组件以及支持后退按钮以及其他可能的原因我有一个使用 setResponsePage 在屏幕之间导航的应用程序在很短的时间内会话就会变得相当大因为所有先前的页面都存储在会话中
如何在 IIS 7.5 中启用 GZIP 压缩

我想使用 GZIP 压缩我的文件您能分享一下使用 GZIP 压缩文件的 web config 代码吗上传 web config 文件后还需要做什么吗 GZip 压缩可以直接通过 IIS 启用首先打开IIS 转到您希望调整的网站并点击
在 Docker 中使用私有模块构建 Go 应用程序

我正在尝试在依赖于私有子模块的 docker 容器中构建一个 go 项目我本来希望 mount type ssh会将我的 ssh 凭据传递给容器并且它会起作用目前我可以在本地构建只需制作GOPRIVATE变量集和git config
从代码中获取全局色调颜色

有没有办法通过代码从我的项目中获取全局色调颜色为了避免误解我指的是全局色调我可以在文件检查器中设置它 Easy 目标C UIColor tintColor self view tintColor Swift let tintColor
根据其他数据框的函数创建新的数据框

我是 R 的新手所以我可能很难提出我的问题请多多包涵我有两个数据框为了解释起见我们假设 df1 柱形代表收益类型玉米燕麦小麦等行代表一年中的月份一月二月等 Elements 代表在该特定月份购买的增益类型的每吨价格 d
从Sql服务器中选择表并将数据插入到Mysql表中

我有一个正在运行的 ms sql 服务器并且希望将一些数据复制到 mysql 数据库我已经可以连接到它们所以我做了类似的事情 pdo new PDO SQLSERVER user password sql SELECT id name
在 swift 中使用 UUID() 和 json

我在网上找到了在 json 文件中使用硬编码 uuid 的示例并且这些示例非常适合我但是当我在应用程序中添加从 json 数组中删除项目的功能时我需要动态创建这些 uuid 这是我的json文件 list json 它曾经有硬编码的i
Objective-C 中的二叉树

我正在学习算法和数据结构并尝试使用 Objective C 设计和实现二叉树进行训练到目前为止我有以下课程 main 供测试用 Node 树的节点 BinaryTree 对于与树相关的所有方法最早的方法之一BinaryTree我实现
创建一个过程来检索表上的所有索引并重建

我想创建一个过程来检索表上的所有索引并重建我用这个查询检索所有索引 select index name from user indexes where table name your table name 我用这个查询重建 alter i
以编程方式获取导航栏的高度

我知道更多视图控制器导航栏的存在将 UIView 的高度推低我也知道这个高度 44px 我还发现这种下推可以维持 self view frame origin y 0 那么除了将其设置为常量之外如何确定该导航栏的高度呢或者更短
Java 堆转储是否包括线程堆栈

我一直在使用 Eclipse 内存分析工具来检查堆转储我还没有看到任何对象通过线程堆栈中的局部变量保持活动状态的情况 java线程堆栈是否保留在堆转储中如果不是这些对象是否会被视为转储中无法访问的对象如果是这样是否有任何方法可以保
C# 位图/图形内存不足

我正在尝试拍摄整个屏幕的快照以读取像素值事实上我这样做没有任何问题但在 214 个快照之后我出现了内存不足的异常 Bitmap ScreenShot new Bitmap Screen PrimaryScreen Bounds Wid
从 C# Windows 窗体在 MS Word 中打开 MS Word 文档

我希望能够通过单击表单上的按钮从 C 表单中打开 MS Word 中已制作的 Word 文档但不知道如何操作请帮忙 Thanks 上次我使用 Excel 时我使用以下代码打开它 Process Start FileLocation
使用ExternalContext.redirect()将面孔消息添加到重定向页面

我在用ExternalContext redirect String 将用户重定向到另一个页面的方法 FacesContext getCurrentInstance addMessage new FacesMessage Bla bla b
java.lang.NoClassDefFoundError：无法解析：Landroid/webkit/PacProcessor

实在找不到言语我的项目只是一天天都无法编译这就是我所做的我下载并显示一个 PDF 然后将其作为保存的 PDF 打印到设备上然后崩溃了这是崩溃的情况 at java lang Class java lang Class classF
将预处理器宏添加到 xcode 6 中的目标

也许这非常简单但我找不到在 Xcode 6 中为目标定义预处理器宏的方法我已经做了一个屏幕截图来显示它在 Xcode 中的位置因为它更容易选择项目文件选择您想要的目标转到构建设置搜索预处理器添加用于调试发布或两者的预处理
Apache Spark：在分区上并行应用 sklearn 的函数

我是大数据和 Apache Spark 的新手也是一名在导师指导下工作的本科生是否可以将函数即样条曲线仅应用于 RDD 的分区我正在尝试实现论文中的一些工作here http sites stat psu edu rli rese

Apache Spark：在分区上并行应用 sklearn 的函数

Apache Spark：在分区上并行应用 sklearn 的函数 的相关文章

随机推荐

热门标签

Apache Spark：在分区上并行应用 sklearn 的函数的相关文章