如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？

2023-12-25

我有一个大型（约 1000 万行）.tsv 文件，其中包含两列：“id”和“group”。 “Group”列实际上是某个 id 所属的所有组的列表，因此该文件如下所示：

id1     group1,group2
id2     group2,group3,group4
id3     group1
...

我需要使用 pyspark 将其上传到 Hive 表，但是我想拆分组列，以便一行中只有一个组，因此生成的表如下所示：

id1    group1
id1    group2
id2    group2
id2    group3
id2    group4
id3    group1

我尝试过逐行读取行，然后使用 python split() 来分割列，然后为每一行创建 Spark 数据帧并将其与每次迭代合并。我的代码可以工作，但是效率极低，因为处理 1000 行需要 2 分钟。我的代码如下：

fields = [StructField('user_id', StringType(), True),StructField('group_id', StringType(), True)] 
membership_schema = StructType(fields) 

result_df = sqlContext.createDataFrame(sc.emptyRDD(), membership_schema)

with open('file.tsv','r') as f:
    for line in f:
        parts = line.split()
        id_part = parts[0]
        audience_parts = parts[1].split(',')
        for item in audience_parts:
            newRow = sqlContext.createDataFrame([(id_part,item)], membership_schema)
            result_df = result_df.union(newRow)
df_writer = DataFrameWriter(result_df)
df_writer.insertInto("my_table_in_hive")

是否有一种更简单、更有效的方法将整个文件上传到表中，而无需迭代各行？

感谢帮助。

我查看了上面代码的计划，似乎它扫描了很多，而且也没有为您提供与 Spark 的并行性。您可以使用spark本机方法将文件数据读入更多分区并控制它们在分区之间均匀分布数据。

df = sc.textFile(file_path,10).map(lambda x: x.split()).map(lambda x :(x[0],x[1].split(","))).toDF(['id','group'])
from pyspark.sql.functions import explode
newdf = df.withColumn("group", explode(df.group))

newdf.write.format("orc").option("header", "true").mode("overwrite").saveAsTable('db.yourHivetable')

此外，您可以增加或减少进入爆炸的分区的大小或控制随机播放分区。

spark.conf.set("spark.sql.files.maxPartitionBytes","30")
spark.conf.set("spark.sql.shuffle.partitions", "100")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

hive

PySpark

如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？的相关文章

Django：将博客条目查看次数增加一。这有效率吗？

我的索引视图中有以下代码 latest entry list Entry objects filter is published True order by date published 10 for entry in latest ent
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

ZonedDateTime.parse 不适用于解析 am 或 pm 时间

我正在学习java 试图构建一个工具根据用户输入时间时区A和时区B的输入将特定时间从时区A转换为时区B 这是关于该工具以特定格式收集时间并将其转换为 ZonedDateTime 对象的部分 import java time Zone
仅当总计数小于阈值时才将行插入 SQL Server 表中

我正在使用 SQL Server 2012 我有一个存储用户的表允许的最大用户数为 100 万我有一个正在注册用户的存储过程当我插入时我想确保 users 表中的总行数不会超过 100 万我更愿意使用允许最大并发性的方法我相信我
创建适用于 Windows 的用户和访问规则 Github

我刚刚使用安装了 Githttp windows github com http windows github com 它似乎安装正确但我无法创建新用户和访问控制设置来访问存储库我试图查看文档但不包含类似的内容我不确定 Window
在 EJS 中循环 JSON

我在下面的 EJS 中有代码 tr td td tr 行的输出是正确的是一个由 3 个对象组成的数组每个对象都有属性 id 名称等我可以操作该行来填充 JS 中的表但是我想知道是否有办法可以按照上述方式完成它当我运行上面的代码时
以编程方式停止并重新启动 Express 服务器（以更改端口）

我希望能够基本上更改我的 Express 应用程序正在运行的端口我试过了 server on close function server listen 3000 server listen 8080 server close 这会返回一个
当推送到github时，为什么git不要求我输入用户名和密码？

这可能是个愚蠢的问题但我通过搜索找不到任何关于此的信息也许这是一个愚蠢的问题我已将我的代码存储在 github 中 2小时前我想更新存储库中的代码但我的本地没有该代码所以我克隆了它修改了代码然后推送了它这时候git提示我
如何以编程方式设置 ASP.NET ReportViewer 控件的数据源？

如何以编程方式设置 ASP NET ReportViewer 控件的数据源我有一个 VS 2008 ReportViewer 控件想要在几个不同的报告之间切换我可以通过设置报表源和刷新控件来切换报表但我看不到在哪里设置数据源每个报
如何在 Android 布局中创建覆盖按钮

我想创建一个将在两个布局之间叠加的按钮我正在使用线性布局并为其添加适当的权重附上屏幕截图以供参考这是我的 XML 标签 xml
ZeroMQ 中的 N 到 N 异步模式？

尽管我阅读了该指南但我找不到执行以下操作的方法我们有n个出版商我们有 m 个订户每个订阅者订阅某种类型的消息一个发布者可以发送多种消息多个发布者可以发出相同类型的消息如何在 0MQ 中创建 N 到 N 或 N 到 1 到 N
GOF 和 GRASP 设计模式有什么区别

我真的很困惑 GOF 和 GRASP 模式之间的区别甚至两者都有助于改进面向对象的实践简答 GoF被提到设计模式 And GRASP are 设计原则设计原则比设计模式更抽象长答案软件工程的主要目的是开发合适的软件 SDLC ht
如何将每个方面的总样本量添加到geom_histogram？

I want to add total sample size of each facet to geom histogram Expect output as below After read this post https stacko
`mut a: &T` 和 `a: &mut T` 有什么区别？ [复制]

这个问题在这里已经有答案了有人可以解释一下这两者之间有什么区别以及什么时候mut a T最常用 Rust 中的函数参数和 let 绑定是正确的模式就像左边的那些 gt 匹配除了 let 和参数模式必须是无可辩驳的即它们必须始终匹配
如何在不仅使用标准 Rust 库同时运行相同函数的情况下定期运行一组函数？

我想使用 Rust 创建一个简单的调度程序以便在定义的时间运行多个并发函数但如果它们尚未完成则不要启动更多函数例如如果定义的间隔为一秒则调度程序应运行这些函数并且如果先前的函数尚未返回则不再启动更多函数目标是防止多次运行相
ArrayList：查找第 n 次出现的整数

查找 ArrayList 中第 n 次出现的数字的最佳方法是什么我已经知道什么了 To find 最后一个索引 https docs oracle com javase 8 docs api java util ArrayList htm
检查位于页面底部附近/底部

我需要检查某个元素距离页面底部是否为 x 像素以动态加载新内容目前即使栏位于底部 scrollTop 和高度也不匹配允许使用 jquery 尽管基本的 javascript 会更有帮助您可能想尝试以下操作仅在 Firefox 3
如何修改networkx中节点的轮廓颜色？

我对 networkx 和使用 matplotlib pyplot 绘图相对较新并且想知道如何修改节点轮廓的颜色或其他属性例如权重我所说的轮廓并不是指两个节点之间的弧线或边缘而是指两个节点之间的弧线或边缘我的意思是圆圈周围的
QDateTimeEdit：以小时/分钟/秒为单位从 59 回滚到 00 或反之亦然

我怎样才能回滚小时分钟秒59 to 00或相反亦然实际上QDateTimeEdit默认情况下不允许并且在达到最大值后会卡住59如果尝试按向上箭头最小值相同00 你必须知道QDateTimeEdit是继承QAbstractSpinB
如何使用 Github v3 API 查找存储库的默认分支

我的目标是在默认分支中获取最新 SHA 的树 GET repos owner repo git trees sha 如何从默认分支中找到最新的 SHA 我知道我可以打电话 GET repos owner repo branches bran
为什么在 PHP 中通过 header('Location..') 重定向后必须调用“退出”？

您知道如果您想在 PHP 中重定向用户可以使用 header 函数 header Location http smowhere com 众所周知将一个exit 之后header调用以阻止执行其他 php 代码所以我的问题是 hea
如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？

我有一个大型约 1000 万行 tsv 文件其中包含两列 id 和 group Group 列实际上是某个 id 所属的所有组的列表因此该文件如下所示 id1 group1 group2 id2 group2 group3 group

如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？

如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？ 的相关文章

随机推荐

热门标签

如何在 pyspark 中有效地将大型 .tsv 文件上传到具有拆分列的 Hive 表？的相关文章