使用 Spark 列出 Hadoop HDFS 目录中的所有文件？

2023-12-20

我想循环遍历 Hadoop 目录中的所有文本文件并计算“错误”一词的所有出现次数。有没有办法做一个hadoop fs -ls /users/ubuntu/使用 Apache Spark Scala API 列出目录中的所有文件？

从给定的第一个例子 https://spark.apache.org/examples.html，spark 上下文似乎只能通过以下方式单独访问文件：

val file = spark.textFile("hdfs://target_load_file.txt")

在我的问题中，我事先不知道 HDFS 文件夹中有多少个文件，也不知道文件的名称。看着Spark 上下文文档 http://spark.apache.org/docs/latest/api/core/index.html#org.apache.spark.SparkContext但找不到这种功能。

您可以使用通配符：

val errorCount = sc.textFile("hdfs://some-directory/*")
                   .flatMap(_.split(" ")).filter(_ == "error").count

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Hadoop

使用 Spark 列出 Hadoop HDFS 目录中的所有文件？的相关文章

无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
为什么 astyanax (java) 无法识别我的 scala 案例类参数列表中的 @Id 注解值？

所以这是我的困境我有一个域模型其中有一堆 scala 中的案例类例如User and Organization 在我的数据访问层 dao 存储库等中我使用 astyanax 来自 netflix 的 java 库及其实体持久器将
Akka/Scala：映射 Future 与 pipelineTo

In Akka参与者在发送一个Future结果给另一个演员 A 映射Future发挥作用tell结果给演员 B 定义一个onSuccess未来的回调其中tell结果给演员 C 管道Future结果给演员pipeTo 其中一些选项已在上一
如何使用 `ProjectRef` 来引用 sbt 1.x 中的本地项目？

其他答案中有很多含糊不清的内容或者涉及到更旧版本的 sbt 即 0 12 x 但似乎没有人真正回答这个问题鉴于我有一个文件夹并且我已经运行 sbt new scala scala seed g8 name Scala Seed Pro
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
从会话中读取数据时如何发出加特林捕获请求？

根据加特林文档 http gatling io docs 2 1 7 session session api html 我可以在执行场景时使用会话属性但是每次我在场景中使用函数文字访问会话时都会遇到以下异常 error java la
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
为什么 Cassandra 客户端在生产中没有 epoll 时会失败？ [复制]

这个问题在这里已经有答案了当我在本地运行服务时我收到一条警告指出 epoll 不可用因此它使用 NIO 很公平当我将其部署到 Kubernetes 中时我得到了以下信息这导致服务无法运行 2017 03 29T19 09 22
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何列出所有 sbt 依赖项？

我需要列出所有 sbt 依赖项以便检查是否已存在 debian 软件包我还注意到有一个 DEB 包 http www scala sbt org 0 13 tutorial Installing sbt on Linux html但似乎
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
Scala 模式匹配打印漂亮

是否有可能以某种方式编组部分函数假设它总是只包含一种情况进入某物人类可读的假设我们有 Any 类型的集合消息 List Any 以及使用模式匹配块定义的 PartialFuntion Any T 的数量 case object R1
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存

随机推荐

Flex 中的自定义“上下文菜单”

我想添加一个带有行分隔符的自定义上下文菜单但无法真正弄清楚如何操作我需要的
创建视频缩略图时 PHImageManager.requestImageForAsset 返回 nil

对于某些视频 requestImageForAsset 会以为零的 UIImage 完成对于其他视频效果很好但我还没弄清楚为什么 func createThumbnailForVideo video PHAsset gt Future
Apache 默认虚拟主机

如何在 Apache 中设置默认 VirtualHost 最好我希望默认主机不要与 IP 地址主机相同现在我有这样的东西 NameVirtualHost
JSON 以自定义格式序列化日期（无法从字符串值构造 java.util.Date 实例）

could not read JSON Can not construct instance of java util Date from String value 2012 07 21 12 11 12 not a valid repre
如何在完全隔离的 Chrome 实例中运行 Rails 应用程序？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案有时客户端和服务器端缓存 cookie 和其他复杂因素可能会变得棘手当它们变得棘手时有时在浏览器中打开应用程序并进行检查可以快速了解正在发
当 LocationListener 休眠时关闭 GPS 图标

我在 Android 中使用 LocationListener 有点困难我想做一个应用程序它将获取当前的 GPS 位置然后休眠很长时间一天或更长时间在这段时间我希望 GPS 通知图标不显示我现在所拥有的是 onLocationC
从 goroutine 获取值并取消另一个 goroutine

我有一种情况我正在从 2 个不同的位置 ES 和 REDIS 读取数据我需要从最快的源读取单个值因此我触发 2 个 goroutine 一个从 ES 获取数据另一个获取来自 REDIS 一旦从其中一个 Goroutine 获取数据
通过html select标签创建时如何获取UIPickerView的对象引用

I have a UIWebview contains a html select tag which is shown as a on the screen When I click the dropdown the UIWebview
覆盖后退按钮和主页按钮的功能

我可以覆盖的功能吗back and home按钮硬件 android 我的意思是点击主页按钮应该转到home screen of my app代替home screen of mobile 主页按钮 gt 您无法覆盖主页按钮的行为返回按
Angular 6 - NullInjectorError：单元测试中没有 HttpClient 的提供者

我正在导入并使用HttpClient在服务中如下 import Injectable from angular core import HttpClient from angular common http Injectable provi
fputcsv 在 .csv 开头插入空行
直接将 Pandas 数据帧转换为稀疏 Numpy 矩阵

我正在从 Pandas 数据帧创建一个矩阵如下所示 dense matrix np array df as matrix columns None dtype bool astype np int 然后变成稀疏矩阵 sparse matr
Tomcat 7 和 Java 8 兼容性问题

根据 catalina out 安装 Oracle Java 8 并将 tomcat7 指向 java8 会产生以下错误 INFO Deploying web application directory var lib tomcat7 we
我可以使用字符串引用对象吗？

所以我的代码如下所示 Dim i As Integer Dim labelnum As String For i 1 To 81 labelnum Label i If labelnum Caption Label1 Caption The
如何使用正则表达式替换字符串的一部分

我需要替换 Javascript 中字符串的一部分下面的例子应该可以澄清我的意思 var str asd 595442 A 30327 0 var strToReplace 30333 var strDesiredResult asd 5
使用模块设置Ocaml

我正在创建一个使用语法的程序并查看该语法是否为 LL 1 我想使用Set模块但我不知道如何进行当然 set元素的类型将是char 你能帮忙吗这个答案假设您已经知道如何确定语法是否为 LL 1 并且只是在寻求有关 Objective
java.lang.IllegalArgumentException kafka控制台消费者

我们在我们的环境中使用 Kafka 2 10 0 9 0 2 4 2 0 258 我们在 kafka 控制台消费者的几个主题上遇到了以下异常我知道有时进入这些主题的消息太大但它们不会超过 message max bytes kafka
Cmake 正在将某些内容安装到 /usr/local/include 和 /usr/lib 而不是 /usr/include [重复]

这个问题在这里已经有答案了我正在读这个如何构建和安装 GLFW 3 并在 Linux 项目中使用它 https stackoverflow com questions 17768008 how to build install glfw
Windows 服务无法复制到文件共享

我有一个 Windows 服务用于将文件从本地目录复制到 samba 共享该服务通过 UNC 路径连接到服务器即 remoteserver shareddir 我已以运行该服务的用户身份登录并且能够使用 UNC 路径在 samba
使用 Spark 列出 Hadoop HDFS 目录中的所有文件？

我想循环遍历 Hadoop 目录中的所有文本文件并计算错误一词的所有出现次数有没有办法做一个hadoop fs ls users ubuntu 使用 Apache Spark Scala API 列出目录中的所有文件从给定的第一个例

使用 Spark 列出 Hadoop HDFS 目录中的所有文件？

使用 Spark 列出 Hadoop HDFS 目录中的所有文件？ 的相关文章

随机推荐

热门标签

使用 Spark 列出 Hadoop HDFS 目录中的所有文件？的相关文章