在 PySpark 中读取 Lzo 文件

2024-04-02

我是 Spark 新手。我的文件夹中有一堆 LZO 索引文件。索引已完成，如上所示https://github.com/twitter/hadoop-lzo https://github.com/twitter/hadoop-lzo.

文件如下：

1.lzo
1.lzo.index
2.lzo
2.lzo.index

and so on

我想阅读这些文件。我正在使用 newAPIHadoopFile()。

正如所给出的，https://github.com/twitter/hadoop-lzo https://github.com/twitter/hadoop-lzo

我做了以下事情：

val files = sc.newAPIHadoopFile(path, classOf[com.hadoop.mapreduce.LzoTextInputFormat],classOf[org.apache.hadoop.io.LongWritable],classOf[org.apache.hadoop.io.Text])
val lzoRDD = files.map(_._2.toString)

它在 Scala（spark-shell）中运行良好。

但是，我想使用 pyspark （python-spark 应用程序）。我正在做以下事情：

files = sc.newAPIHadoopFile(path,"com.hadoop.mapreduce.LzoTextInputFormat","org.apache.hadoop.io.LongWritable","org.apache.hadoop.io.Text")
lzoRDD = files.map(_._2.toString)

我收到以下错误： AttributeError: 'RDD' 对象没有属性 '_2'

整个代码如下：

import sys
from pyspark import SparkContext,SparkConf

if __name__ == "__main__":
    #Create the SparkContext
     conf = (SparkConf().setMaster("local[2]").setAppName("abc").set("spark.executor.memory", "10g").set("spark.cores.max",10))

     sc = SparkContext(conf=conf)

     path='/x/y/z/*.lzo'
     files = sc.newAPIHadoopFile(path,"com.hadoop.mapreduce.LzoTextInputFormat","org.apache.hadoop.io.LongWritable","org.apache.hadoop.io.Text")
     lzoRDD = files.map(_._2.toString)

     #stop the SparkContext
     sc.stop()

我正在使用spark-submit 提交。

任何帮助，将不胜感激。

谢谢

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

PySpark

在 PySpark 中读取 Lzo 文件的相关文章

将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
scalac 编译生成“对象 apache 不是包 org 的成员”

我的代码是 import org apache spark SparkContext 它可以在交互模式下运行但是当我使用 scalac 编译它时出现以下错误消息对象 apache 不是包 org 的成员这似乎是路径的问题但我不知道
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2

随机推荐

Javascript for 循环缺少中间部分：错误还是高级？

我正在为工作项目调试另一位开发人员的 Javascript 我可能是一名中级 Javascript 开发人员在美好的一天我遇到了一个似乎已损坏的 for 循环 for i 0 i 谁能告诉我这是否确实是一个错误或者在某些情况下这是否是
如何像签署程序集一样签署 ZIP 文件？

我有一个包含签名的 Net 程序集的 ZIP 文件是否可以通过工具来签名而不是代码而是包含这些程序集的 ZIP 文件我希望能够在代码方面处理这个问题比如 if myzipfile IsSignedBy name DezipFile
为了性能而将python与c集成是否合理？

我喜欢使用 python 来做几乎所有的事情并且总是清楚地意识到如果由于某种原因我要在 python 代码中找到瓶颈由于 python 的限制我总是可以使用集成到我的代码中的 C 脚本但是当我开始读一本guide http ww
Apache Spark 中的 reduce() 与 Fold()

有什么区别reduce vs fold关于它们的技术实现我知道他们的签名不同fold接受添加到每个分区输出的附加参数即初始值有人可以讲述这两个操作的用例吗在考虑使用 0 的情况下哪个会表现更好fold 提前致谢就性能而言没有任何
当调用扩展方法时，如何使用 Moq 模拟 Autofaq 接口

使用 C Autofac Moq 我有这样的课程 public class MyService private readonly IlifetimeScope scope public MyService ILifetimeScope sc
提交消息中的 Git 魔术关键字（签名者、共同创作者、修复等）

Git 命令本身supports https git scm com docs git commit the Signed off by Person s name
可以运行更新并且它可以工作，但是提交说非法存储库 url ''？

在颠覆中我试图提交一个项目但遇到了问题我得到的错误是非法存储库 URL 为什么我可以运行更新但在同一棵树上提交却显示这一点试试这个它对我有用创建一个文件夹右键单击文件夹并在此处创建存储库当弹出窗口出现时选择创建文件夹结
Python：从以非零退出代码退出的命令行获取输出

我在用Python 2 7 1在 Windows Server 2008 R2 x64 机器上我正在尝试获取命令行进程的输出该进程在输出我需要的信息后给出非零退出状态我最初使用的是subprocess check output 并捕获
Xcode 4 / iOS - 从我的应用程序内部使用 SMTP 发送电子邮件

我一直在寻找一个框架来简单地允许我从我的应用程序内部发送电子邮件我尝试过 MailCore Pantomime 和 SKPSMTP 但都没有成功我无法让它们在 Xcode 中编译所以我认为它们已经过时了我有什么办法可以做到这一点吗
如何列出自特定变更列表以来的 P4 变更

有没有办法在特定分支的特定变更列表之后获取变更列表列表 p4 changes some flag CL depot project 这可以使用以下语法来完成假设您希望查看自更改列表 12345 含以来提交到此分支的所有更改 p4 cha
Spring boot和Gradle多模块项目，无法正确加载依赖项

基本上我有一个使用 Gradle 构建的 Spring Boot 项目该项目有一个根项目其中包含另外 4 个子模块根项目settings gradle如下所示 rootProject name proj include proj ap
OpenID 登录机制 - 保持登录状态

我正在用 PHP 开发一个网站并尝试使用 OpenID 进行登录机制我想要类似于 StackOverflow 的行为我的意思是每当我打开 stackoverflow 时我就已经登录了我在 StackOverflow 上发现了两个
实体框架 POCO - 如果字段更新两次如何防止错误？

我正在开始使用模型优先配置中的 POCO 实体框架我有一个稍微不标准的模型通过自定义 tt 文件生成以响应 edmx 中的自定义属性使我能够触发 NotifyPropertyChanged 事件来记录对某些属性的更新这导致一个实际上
Asp.net objectdatasource TypeName 属性错误

I use ASP ObjectDataSource用于网格数据绑定我的问题是当我运行此代码时出现错误
在 Rails 初始化程序运行之前运行 rspec “before” 块

我想运行 rspecbefore阻止设置一些东西beforeRails 初始化程序运行因此我可以测试初始化程序应该做什么这可能吗如果初始化程序中的逻辑足够复杂则应该对其进行测试您应该将其提取到一个帮助程序中您可以在不处于初始化
xaml 中的 WPF ObservableCollection

我在用户控件的代码后面创建了一个 ObservableCollection 它是在窗口加载时创建的 private void UserControl Loaded object sender RoutedEventArgs e Entiti
找不到列“dbo”或用户定义函数或聚合“dbo.Splitfn”，或者名称不明确

我使用了以下分割函数 CREATE FUNCTION dbo Splitfn String varchar 8000 Delimiter char 1 returns temptable TABLE items varchar 8000 a
加密 web.config 失败错误

我知道有人已经问过有关加密 web config 的问题我还尝试加密我的测试配置文件但我收到此错误 aspnet regiis pef connectionStrings C encryptedWeb config 正在加密配置部分无
从 Javascript 方法返回全局变量 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个方法 function ca
在 PySpark 中读取 Lzo 文件

我是 Spark 新手我的文件夹中有一堆 LZO 索引文件索引已完成如上所示https github com twitter hadoop lzo https github com twitter hadoop lzo 文件如下 1

在 PySpark 中读取 Lzo 文件

在 PySpark 中读取 Lzo 文件 的相关文章

随机推荐

热门标签

在 PySpark 中读取 Lzo 文件的相关文章