结合 Spark Streaming + MLlib

2024-04-10

我尝试使用随机森林模型来预测示例流，但似乎我无法使用该模型对示例进行分类。这是pyspark中使用的代码：

sc = SparkContext(appName="App")

model = RandomForest.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={}, impurity='gini', numTrees=150)


ssc = StreamingContext(sc, 1)
lines = ssc.socketTextStream(hostname, int(port))

parsedLines = lines.map(parse)
parsedLines.pprint()

predictions = parsedLines.map(lambda event: model.predict(event.features))

在集群中编译时返回错误：

  Error : "It appears that you are attempting to reference SparkContext from a broadcast "
    Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on workers. For more information, see SPARK-5063.

有没有办法使用从静态数据生成的模型来预测流示例？

谢谢你们，我真的很感激！

是的，您可以使用从静态数据生成的模型。您遇到的问题与流根本无关。您根本无法在操作或转换中使用基于 JVM 的模型（请参阅如何从操作或转换中使用 Java/Scala 函数？ https://stackoverflow.com/q/31684842/1560062解释原因）。相反，你应该申请predict方法来完成RDD例如使用transform on DStream:

from pyspark.mllib.tree import RandomForest
from pyspark.mllib.util import MLUtils
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from operator import attrgetter


sc = SparkContext("local[2]", "foo")
ssc = StreamingContext(sc, 1)

data = MLUtils.loadLibSVMFile(sc, 'data/mllib/sample_libsvm_data.txt')
trainingData, testData = data.randomSplit([0.7, 0.3])

model = RandomForest.trainClassifier(
    trainingData, numClasses=2, nmTrees=3
)

(ssc
    .queueStream([testData])
    # Extract features
    .map(attrgetter("features"))
    # Predict 
    .transform(lambda _, rdd: model.predict(rdd))
    .pprint())

ssc.start()
ssc.awaitTerminationOrTimeout(10)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

SparkStreaming

apachesparkmllib

结合 Spark Streaming + MLlib 的相关文章

Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
在 Django OAuth Toolkit 中安全创建新应用程序

如何将 IsAdminUser 权限添加到 Django OAuth Toolkit 中的 o applications 视图 REST FRAMEWORK DEFAULT PERMISSION CLASSES rest framework
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
在 Windows 上使用 apache mod_wsgi 运行 Flask 应用程序时导入冲突

我允许您询问我在 Windows 上使用您的 mod wsgi portage 托管 Flask 应用程序时遇到的问题我有两个烧瓶应用程序由于导入冲突只有一个可以同时存在 IE 如果请求申请 1 我有回复然后如果我请求应用程序 2
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
如何为不同操作系统/Python 版本编译 Python C/C++ 扩展？

我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本针对不同环境交叉编译扩展的标准方法是什么葡萄酒虚拟机众包我们使用虚拟机和Hudson http hud

随机推荐

更新到 MacOs Mojave 10.14 后是否有 OpenGL 黑屏和伽玛校正？

我不小心更新了我的 Mac OpenGL 现在在最新的 MacOS Mojave 中已被弃用我正在使用 OpenGL GLUT 我知道这很旧但我只需要一个简单的程序并在终端上运行不使用 Xcode 使用在 Sierra 中完美运行的
基于ONVIF wsdl生成Java webservice（自顶向下方法）

我想为像相机这样的设备生成服务器代码这些设备有一个标准协议称为ONVIF https www onvif org它发布了一些流行的 WSDL 文档所以我必须从 ONFIV 的 WSDL 文档生成一个接口和骨架当我使用 wsdl2ja
Oracle 动态旋转

我有下表我需要根据 CCL 列创建列 CCL 列中的值未知我不知道从哪里开始任何帮助将不胜感激 TABLEA ID CCL Flag 1 john x 1 adam x 1 terry 1 rob x 2 john x Query
Blackberry Java 中的类之间调用

当屏幕上单击位图时我试图推送一个新屏幕为此我从这篇文章中创建了一个类黑莓可点击位图字段 https stackoverflow com questions 5722875 blackberry clickable bitmapf
安装 gem 时出错：无法为 cygwin 的堆保留空间，Win32 错误 487

我正在尝试安装win32 api我的机器上安装了 gem 并且在构建本机扩展时遇到了一些问题 gem install win32 api no ri rdoc Temporarily enhancing PATH to include De
如何为WinForm、C#制作框架？

我一直在研究改变Windows窗体边框的颜色发现它是由Windows决定的好吧这是有道理的所以我看到以前问过这个问题的人被告知去这里http customerborderform codeplex com http customer
内存警告后 WKWebView 变为空白

我正在开发一个 iOS 应用程序它将在 wkWebView 中显示一些 360 度全景内容该页面确实会加载但当它收到内存警告时它会在 iPad 2 上显示空白视图相关代码 NSURLRequest req NSURLRequest
@selector 和其他类 (Objective-C)

在对象内部我使用 NSMenu 的addItemWithTitle action keyEquivalent 创建 NSMenuItems 问题是我希望调用另一个对象上的方法作为操作这action 部分需要一个 selector作为参数
pinterest 布局样式的 CSS 代码

我的挑战是尝试使列表网格视图看起来像 pinterest 类似的布局我已经用它编写了一些代码但这还不够下面的行彼此不匹配 content category grid view li featured position relative
Expressjs Passport-Local 无法注销

我将应用程序 Passport local 复制粘贴到我的应用程序上有趣的是我可以登录用户但我不能让他们注销 app get logout function req res req logout res redirect 这并不是什么都
SQL Server Express 中的链接服务器

我正在开发一个应用程序其中我在 SQL Server Express 中有一个本地数据库在本地数据库中工作期间我们需要在另一个 SQL Server 实时服务器上执行查询并返回一个值并使用该值在本地服务器中执行查询对 2 或 3
Angular 6：无法绑定到“formGroup”，因为它不是“form”的已知属性？

我曾在 Angular 2 4 中使用过表单生成器但现在我在 Angular 6 中使用它我看到了这个问题无法绑定到 formGroup 因为它不是 form 的已知属性 https stackoverflow com questio
如何使用 ts 中的变量作为 HTML 文件中的标记名？ [复制]

这个问题在这里已经有答案了我想知道是否有什么方法可以使用HTML tag name p for e g 这是从变量获得的以下是我尝试过的代码应用程序组件 ts import Component OnInit from angular
在 Jupyter Notebook 中的 %matplotlib inline 之后使用 %matplotlib Notebook 不起作用

我正在使用 Jupyter Notebook 来绘制饼图 In 第一个细胞用我的代码我有一个神奇的命令 matplotlib inline在这个神奇的命令之后我运行我的代码一切正常并且我的图形呈现 But in 第二个细胞当我设置 ma
Tensorboard 错误：当前数据集没有活动的仪表板

我正在尝试使用 Tensorboard 但每次使用 Tensorflow 运行任何程序时当我转到 localhost 6006 查看可视化时都会收到错误这是我的代码 a tf add 1 2 b tf multiply a 3 with
getResponseHeader 不是函数

我需要从另一个页面获取值但我通过以下代码收到此错误我该如何修复它 document ready function name submit click function ajax type POST data form signup se
如何为异步流服务器编写 pytest 夹具？

我一直在尝试学习 asyncio 但找不到任何创建可用于测试服务器代码的 pytest 夹具的示例一旦服务器启动我猜它会阻止其他一切因此测试永远不会运行 pytest asyncio 是否有办法在单独的线程中运行固定装置或其他东西还
Swift - 调用中的额外参数

我试图从 DetailViewController 类调用 ViewController 类中声明的函数尝试调试调用中的额外参数错误时会弹出在 ViewController 类中 func setCity item Cities i
如何创建匹配键的查询？

我使用另一个用户赞助商的密钥来指示谁是用户的赞助商它会在数据存储中为那些拥有赞助商的用户创建一个链接最多可以是一个但赞助商可以赞助许多用户例如在本例中 ID 2002 赞助了另外三个用户在这种情况下这个查询做了我想要的 SE
结合 Spark Streaming + MLlib

我尝试使用随机森林模型来预测示例流但似乎我无法使用该模型对示例进行分类这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai

结合 Spark Streaming + MLlib

结合 Spark Streaming + MLlib 的相关文章

随机推荐

热门标签