Spark 结构化流 - 从嵌套目录读取文件

2024-04-14

我有一个客户端将 CSV 文件放置在嵌套目录中，如下所示，我需要实时读取这些文件。我正在尝试使用 Spark 结构化流来做到这一点。

Data:
/user/data/1.csv
/user/data/2.csv
/user/data/3.csv
/user/data/sub1/1_1.csv
/user/data/sub1/1_2.csv
/user/data/sub1/sub2/2_1.csv
/user/data/sub1/sub2/2_2.csv

Code:

val csvDF = spark
  .readStream
  .option("sep", ",")
  .schema(userSchema)      // Schema of the csv files
  .csv("/user/data/")

添加任何配置以允许 Spark 从结构化流中的嵌套目录读取。

我可以使用 glob 路径流式传输子目录中的文件。

在这里发帖是为了其他人。

inputPath = "/spark_structured_input/*?*"
inputDF = spark.readStream.option("header", "true").schema(userSchema).csv(inputPath)
query = inputDF.writeStream.format("console").start()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

Spark 结构化流 - 从嵌套目录读取文件的相关文章

将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc

随机推荐

nifi invokehttp post复杂的json

我尝试在 Apache NiFi 中使用 InvokeHttpProcessor 来执行具有复杂 JSON 正文的 POST 请求因此本教程 http www tomaszezula com 2016 10 30 nifi and htt
PostgreSQL 中是否有可用的多值字段类型？

我想知道是否可以在 PostgreSQL 的一个字段中存储多个值我有一张桌子叫Token与列id text and category category是一个多值字段是否有必要为其创建一个单独的表或者有没有办法将其存储在Token ta
java.lang.NoSuchMethodError：没有静态方法 getDrawable(Landroid/content/Context;I)

正在将 Socialize SDK 集成到我的应用程序中我还将 Android Studio 更新到了 2 3 3 我的 Activity 的 super onCreate savedInstanceState 给了我一个错误这里也提出
malloc(0) 的行为

int main char p p char malloc sizeof char 0 printf Hello Enter the data without spaces n scanf s p printf The entered st
如何在 Java 中定义重复的枚举常量？

我想定义一个具有两个值相同的常量的枚举类型我将这两个常量称为重复项考虑以下示例我想要定义一个浏览器类型列表并且想要同时拥有文字 IE 和 InternetExplorer 如下所示 enum Browser CHROME chr
关闭SKScene后，内存仍然居高不下

我使用dispatch onceNSObject创建数据指针因此当主视图控制器出现时所有游戏资源指针都会被创建为了玩游戏用户点击UIButton对应于某个特定级别UI视图控制器让我称之为 LevelSelectionContro
AXML 和 XAML 之间的区别？

我是 Visual Studio Xamarin 跨平台移动开发的新手我一直在搜索 AXML 但我找不到任何设计和应用 MVC 方法的教程实际上我对此有很多疑问但我先把这 3 留在这里他们有什么区别 xaml设计可以应用在axml中
使用 psycopg cur.execute 创建 postgres 模式

我的 python 应用程序允许用户创建其命名模式我需要一种方法来保护应用程序免受 SQL 注入要执行的SQL读取 CREATE SCHEMA schema name AUTHORIZATION user name psycopg 文档
PHP 正则表达式生成器

我现在已经获得了满足以下所需条件的有效正则表达式字符串一行 php 就绪正则表达式包含许多关键字和关键术语并且至少匹配其中一个例如关键术语 apple banana strawberry pear cake 现在如果找到任何这些
git、mercurial、bazaar 源代码库的可理解性

我想阅读一种流行的版本控制工具的源代码以了解版本控制的工作原理我想读一本最具可读性的书我不知道对此有什么客观定量的衡量标准所以本着WTF 分钟漫画 http www osnews com story 19266 WTFs m 想请
内容提供商中 Android 投影图的用途是什么？

我正在查看 Android 记事本应用程序示例代码
Firefox Web 扩展“无法访问死对象”错误

我很难找到这个问题的最新答案并且经常没有时间在这里回答问题所以我想我会发布这个这样我就可以回答我自己的问题因为我找到了解决方案我正在为 Chrome 和 Firefox 制作一个 Web 扩展 Firefox 有一个问题当我从选
跨浏览器选项卡共享 websocket？

我们希望每个浏览器都有一个套接字而不是浏览器中的每个选项卡都有一个套接字我们怎样才能实现它呢我读到了有关共享网络工作者的文章这很有前途对此的参考也值得赞赏不幸的是据我所知共享网络工作者尚未被 Mozilla 或 Intern
在非托管 CDI Bean 中引用 CDI Bean

是否可以在使用创建的类中获取 CDI bean 的实例new关键词我们目前正在对旧应用程序进行一些增强并且我们总是会得到上下文不活跃异常 http docs jboss org cdi api 1 0 javax enterprise
如何在 Xamarin iOS 中绘制文本？

我想在给定点 x y 处绘制文本Draw自定义的方法View 我已关注这个样本 https developer xamarin com recipes ios graphics and drawing core text draw unic
如何在CKEditor 4中设置默认字体和字体大小

我使用以下代码在 CKEditor 4 中设置默认字体和字体大小 config font defaultLabel Tahoma config fontSize defaultLabel 24px 但上面的代码在 Mozilla Firef
php 中转义引号的意义是什么

这是我正在学习的一本书中的验证脚本为什么需要转义引号例如
在 PHP 中对逗号分隔值列表运行选择

我在数据库上运行选择查询时遇到一些问题一些数据以逗号分隔值的列表形式保存例如 Table example tbl Id People Children 1 1 2 3 8 10 3 2 7 6 12 18 19 2 我正在尝试运行的示例
SQL Server 2008 - 按带有数字的字符串排序

我的表中有以下值 ABC ABC1 ABC2 ABC3 and so on ABC11 ABC12 ABC13 and so on ABC20 ABC21 ABC22 and so on 所以基本上我拥有的是任何字符串值并不总是 ABC
Spark 结构化流 - 从嵌套目录读取文件

我有一个客户端将 CSV 文件放置在嵌套目录中如下所示我需要实时读取这些文件我正在尝试使用 Spark 结构化流来做到这一点 Data user data 1 csv user data 2 csv user data 3 csv u

Spark 结构化流 - 从嵌套目录读取文件

Spark 结构化流 - 从嵌套目录读取文件 的相关文章

随机推荐

热门标签

Spark 结构化流 - 从嵌套目录读取文件的相关文章