从 Spark-Shell (pyspark) 查询 Spark 流应用程序

2024-04-29

我正在关注这个example http://cdn2.hubspot.net/hubfs/438089/notebooks/spark2.0/Structured%20Streaming%20using%20Python%20DataFrames%20API.html in the pyspark控制台一切正常。

之后我将其编写为 PySpark 应用程序，如下所示：

# -*- coding: utf-8 -*-

import sys

import click

import logging

from pyspark.sql import SparkSession

from pyspark.sql.types import *


@click.command()
@click.option('--master')
def most_idiotic_bi_query(master):
    spark = SparkSession \
            .builder \
            .master(master)\
            .appName("stream-test")\
            .getOrCreate()

    spark.sparkContext.setLogLevel('ERROR')

    some_schema = ....  # Schema removed 

    some_stream    = spark\
                     .readStream\
                     .option("sep", ",")\
                     .schema(some_schema)\
                     .option("maxFilesPerTrigger", 1)\
                     .csv("/data/some_stream", header=True)

    streaming_counts = (
        linkage_stream.groupBy(some_stream.field_1).count()
    )

    query = streaming_counts.writeStream\
                            .format("memory")\
                            .queryName("counts")\
                            .outputMode("complete")\
                            .start()



    query.awaitTermination()

if __name__ == "__main__":
    logging.getLogger("py4j").setLevel(logging.ERROR)
    most_idiotic_bi_query()

该应用程序执行如下：

spark-submit test_stream.py --master spark://master:7077

现在，如果我在另一个终端中打开一个新的 Spark 驱动程序：

pyspark --master spark://master:7077

并尝试运行：

spark.sql("select * from counts")

它失败了：

During handling of the above exception, another exception occurred:

AnalysisExceptionTraceback (most recent call last)
<ipython-input-3-732b22f02ef6> in <module>()
----> 1 spark.sql("select * from id_counts").show()

/usr/spark-2.0.2/python/pyspark/sql/session.py in sql(self, sqlQuery)
    541         [Row(f1=1, f2=u'row1'), Row(f1=2, f2=u'row2'), Row(f1=3, f2=u'row3')]
    542         """
--> 543         return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
    544 
    545     @since(2.0)

/usr/local/lib/python3.4/dist-packages/py4j-0.10.4-py3.4.egg/py4j/java_gateway.py in __call__(self, *args)
   1131         answer = self.gateway_client.send_command(command)
   1132         return_value = get_return_value(
-> 1133             answer, self.gateway_client, self.target_id, self.name)
   1134 
   1135         for temp_arg in temp_args:

/usr/spark-2.0.2/python/pyspark/sql/utils.py in deco(*a, **kw)
     67                                              e.java_exception.getStackTrace()))
     68             if s.startswith('org.apache.spark.sql.AnalysisException: '):
---> 69                 raise AnalysisException(s.split(': ', 1)[1], stackTrace)
     70             if s.startswith('org.apache.spark.sql.catalyst.analysis'):
     71                 raise AnalysisException(s.split(': ', 1)[1], stackTrace)

AnalysisException: 'Table or view not found: counts; line 1 pos 14'

我不明白发生了什么事。

这是预期的行为。如果你检查文档 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-sinks对于内存接收器：

输出作为内存表存储在内存中。支持附加和完整输出模式。这应该用于低数据量的调试目的，因为收集了整个输出并存储在驾驶员的内存中。因此，请谨慎使用。

正如您所看到的，内存接收器不会创建持久表或全局临时视图，而是创建仅限于驱动程序的本地结构。因此无法从另一个 Spark 应用程序查询它。

因此，必须从写入内存的驱动程序中查询内存输出。例如你可以模仿console模式如下图。

一个虚拟作家：

import pandas as pd
import numpy as np
import tempfile
import shutil

def producer(path):
    temp_path = tempfile.mkdtemp()

    def producer(i):
        df = pd.DataFrame({
          "group": np.random.randint(10, size=1000)
        }) 
        df["val"] = (
            np.random.randn(1000) + 
            np.random.random(1000) * df["group"] + 
            np.random.random(1000) * i % 7
        )
        f = tempfile.mktemp(dir=temp_path)
        df.to_csv(f, index=False)
        shutil.move(f, path)
    return producer

火花应用：

from pyspark.sql.types import IntegerType, DoubleType, StructType, StructField

schema = StructType([
   StructField("group", IntegerType()),
   StructField("val", DoubleType())
])

path = tempfile.mkdtemp()
query_name = "foo"

stream = (spark.readStream
    .schema(schema)
    .format("csv")
    .option("header", "true")
    .load(path))

query = (stream
    .groupBy("group")
    .avg("val")
    .writeStream
    .format("memory")
    .queryName(query_name)
    .outputMode("complete")
    .start())

以及一些事件：

from rx import Observable

timer = Observable.timer(5000, 5000)
timer.subscribe(producer(path))
timer.skip(1).subscribe(lambda *_: spark.table(query_name).show())

query.awaitTermination()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

SparkStructuredStreaming

从 Spark-Shell (pyspark) 查询 Spark 流应用程序的相关文章

以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文

随机推荐

Spring-MVC 3.1：如何映射带有尾部斜杠的 URL？

我正在将旧版 servlet 应用程序转换为 Spring 3 1 在此过程中一些 URL 现在已过时我们的网络存在一些问题短期内不会得到解决我的老板不想相信他们的重定向将始终有效因此她要求我将自己的重定向放入网络应用程序中一
为现有数据库/sql 视图创建 django 模型？

我已在 template dir sql someTableName sql 文件中插入视图的定义创建或替换视图所以每次我运行syncdb 创建数据库视图我可以在 models py 中创建一个访问该视图的 python 类吗使用
如何进行不区分大小写的字符串比较？

如何使下面的行不区分大小写 drUser Enrolled enrolledUsers FindIndex x gt x Username string drUser Username 1 今天早些时候我得到了一些建议建议我使用 x Us
将静态链接的 elf 二进制文件转换为动态链接的

我有一个 elf 二进制文件它已静态链接到 libc 我无权访问其 C 代码我想使用 OpenOnload 库它在用户空间中实现了套接字因此与标准 libc 版本相比提供了更低的延迟 OpenOnload 实现标准套接字 api 并
CSS 网格行垂直溢出其容器

我想在页面上有一个网格布局其中网格延伸到整个视口并且行具有最小高度最简单的示例是具有单个单元格的网格请参见下面的代码片段我遇到的问题是当视口的高度小于定义的最小行高时该行垂直溢出其容器通过在下面的示例中添加红色和绿色边框可
iPhone 相机访问权限？

我想知道如何访问 iPhone 相机并实时使用它例如仅在相机视图上绘图另一个相关问题可以显示吗同时 4 个摄像机视图就像 Mac 上的 Photo Booth 一样您可以使用 AVFoundation 来做到这一点 void in
从布伦特里汇款

我使用 Braintree 作为我的网站的付款方式收款时没问题但现在我想将钱转入特定客户帐户不退款请帮我谢谢你 Full disclosure I work at Braintree If you have any further
如何让wildfly localhost连接自动变成https？

我需要在本地主机上使用 https 协议测试我的 Web 应用程序我怎样才能在wildfly上配置设置以使https localhost 8443 myapp html works New 我将其添加到我的安全领域
使用 Google 地图对 geoJson 文件中的点进行自定义标记

我使用 GeoJSON 作为 Google 地图的数据源我使用 API v3 创建数据层如下所示
Node.js 中的缓冲区是什么？

正如您可以在有关 Buffer 类的 Node js 文档 http nodejs org api buffer html 一个缓冲区类似于整数数组但对应于 V8 堆外部的原始内存分配到目前为止一切都很好现在让我困惑的是从技术上
查找其他列表项中列表项的列表索引

我有一个长字符串列表我想获取与另一个列表中的字符串子字符串匹配的列表元素的索引使用列表理解可以轻松检查列表项是否包含列表中的单个字符串例如这个问题 https stackoverflow com questions 4843158 c
AJAX 加载 WordPress 内容

我一直在遵循 AJAX 教程来尝试将我的 WordPress 帖子内容加载到我网站的主页上而无需重新加载页面我不知道为什么但是当单击链接时它仍然导航到页面而不是将内容加载到我指定的 div 中不管怎样这对我来说有点太多了我希
[UIScreen mainScreen].bounds 与 [UIApplcation sharedApplication].keyWindow.bounds？

我认为我想覆盖整个屏幕我想将其框架设置为覆盖整个屏幕浏览堆栈溢出我发现设置视图框架覆盖屏幕的两种不同方法 UIScreen mainScreen bounds UIApplcation sharedApplication keyWin
为什么 XDebug 忽略 NetBeans 6.8 中的断点？

我在 Ubuntu 10 04 笔记本电脑上运行 PHP 5 3 2 Apache 2 2 14 和 xdebug 2 2 0rc1 并且尝试在 Netbeans 6 8 中的本地主机上设置调试我的问题是我在 Netbeans 中设置的断
尝试从 assetForURL:resultBlock 内部分配 __block ALAsset 时出错：

我正在尝试创建一个方法该方法将返回给定资产 url 的 ALAsset 我需要稍后上传资产并希望在结果块之外执行此操作 ALAsset assetForPhoto Photo photo ALAssetsLibrary library
如何在 NSUserDefaults 中存储 Swift 枚举值

我有一个这样的枚举 enum Environment case Production case Staging case Dev 我想在 NSUserDefaults 中保存一个实例如下所示 func saveEnvironment en
如何使用 forEach 删除列表中的元素？

var people alex jason matt people forEach function p if p length gt 4 REMOVE THIS PERSON or pop it out of the list or wh
从恐慌中恢复的程序未按预期退出

根据我的理解当恐慌恢复时我期望程序退出并表现出正常行为但事实并非如此我期望最后一行打印程序结束是正确的吗如果出现运行时错误它不会被打印是吗 package main import fmt func main defer f
最快的 SQL Server 协议？

最快的 SQL Server 连接协议是什么相关哪些协议可以远程使用哪些可以本地使用这会影响最快协议的选择吗 VIA 这是最快的 SQL 协议它在专用硬件上运行并用于执行 SQL Server 基准测试记录请注意 VIA 协议
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame

从 Spark-Shell (pyspark) 查询 Spark 流应用程序

从 Spark-Shell (pyspark) 查询 Spark 流应用程序 的相关文章

随机推荐

热门标签

从 Spark-Shell (pyspark) 查询 Spark 流应用程序的相关文章