将新列附加到现有 parquet 文件

2023-12-26

有没有办法将新列附加到现有的镶木地板文件中?

我目前正在参加 Kaggle 比赛,我已将所有数据转换为镶木地板文件。

情况是这样的,我将 parquet 文件读入 pyspark DataFrame,进行了一些特征提取,并将新列附加到 DataFrame 中

pyspark.DataFrame.withColumn()。

之后,我想将新列保存在源镶木地板文件中。

我知道 Spark SQL 附带Parquet 架构演变 https://spark.apache.org/docs/1.4.0/sql-programming-guide.html#schema-merging,但示例仅显示了具有键值的情况。

parquet“附加”模式也不起作用。它仅将新行追加到镶木地板文件中。 是否可以将新列附加到现有镶木地板文件而不是再次生成整个表? 或者我必须生成一个单独的新镶木地板文件并在运行时加入它们。


在 parquet 中,您不修改文件,而是读取它们、修改它们并将它们写回,您不能只更改读取和写入完整文件所需的列。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将新列附加到现有 parquet 文件 的相关文章

随机推荐

  • 覆盖hdfs目录Sqoop导入

    Sqoop导入时是否可以自动覆盖HDFS目录 而不是每次手动覆盖它 我们是否有像 overwrite 这样的选项 就像 hive 导入 hive overwrite 一样 Use delete target dir 它将删除
  • 如何在自定义指令中获取 ng-model 值

    我在这里搜索并尝试了我找到的答案 但我似乎无法从自定义指令的 ngModel 中获取模型值 这是指令 usage
  • 如何将 ASP.NET 与 Visual Studio 2008 结合使用

    从 VB 3 开始我就没有使用过 Visual Studio 现在正在尝试使用 ASP NET 看起来它应该能够连接到一个网站 通过某种类似 ftp 的协议 我认为 并允许编辑 而无需手动上传 下载文件 这是它应该的工作方式还是我误解了 我
  • 将焦点设置到 jQuery UI MultiSelect Widget 中的 Filter 输入

    我正在编写一个小脚本 它将焦点设置到多选 jquery 小部件的过滤器文本输入字段 根据文档 我可以像这样订阅小部件的单击事件 bind to event multiselect bind multiselectopen function
  • Angular 5:有条件地设置默认路由

    我有一个包含三个子菜单及其相应子路线的导航 现在 某些子菜单不可见 ngIf 具体取决于用户从服务器获得的声明 当单击主菜单时 我重定向到其中一个子菜单 但有时该子菜单无法访问 然后我想重定向到下一个同级菜单 path mymainmenu
  • MediaRecorder.stop() 与 Android 4.0 (ICS) 挂起

    打电话时stop 在我的视频捕捉活动中 软件有时会挂起并且无法恢复 只有通过点击 返回 来触发 ANR 才能让我终止该活动 在日志中 我看到以下行一遍又一遍地重复 W CameraSource YYYYY 等待传入摄像头视频超时 帧 XXX
  • JAX-RS 中等效的 Servlet init() 方法

    我正在开发一个在 Glassfish 上运行的应用程序 我应该使用 jax rs 和 jersey 将 servlet 转换为适当的静态内容 我一直在尝试寻找 init 方法的解决方法 但到目前为止我失败了 这是使用 servlet 的原始
  • 获取亚马逊 s3 存储桶大小的最快方法

    截至目前 我正在通过迭代所有对象并将单个对象的大小相加来计算亚马逊 s3 存储桶的大小 这是相当耗时的 我尝试并行操作并节省了一些时间 但即使这样也需要很多时间 我正在使用的系统 EC2 m1 large 是否有任何解决方法或更好的方法来找
  • 如何使用 Apache Commons 以多部分形式读取其他参数

    我有一个文件上传表单 正在发送回 servlet 使用多部分 表单数据编码 在 servlet 中 我尝试使用 Apache Commons 来处理上传 但是 我的表单中还有一些其他字段只是普通字段 如何从请求中读取这些参数 例如 在我的
  • 如何避免CodeIgniter中的SQL注入?

    有没有什么方法可以在配置文件中设置以避免SQL注入 我使用此代码来选择值 this gt db gt query SELECT FROM tablename WHERE var val1 这用于插入值 this gt db gt query
  • 在纱线集群上运行时引发 ClassNotFoundException

    my code import org apache spark SparkConf SparkContext object Run extends App val conf new SparkConf setMaster yarn clus
  • 如何保护用于让用户上传文件的文件夹的安全?

    我的 Web 服务器中有一个文件夹 供用户使用 ASP 页面上传照片 授予 IUSR 对该文件夹的写入权限是否足够安全 我必须确保其他东西吗 我担心黑客会绕过 ASP 页面 直接将内容上传到文件夹中 我在 Windows 2003 Serv
  • 原型有 hash.inspect() 方法。 jQuery 世界中的等价物是什么?

    我正在使用 jQuery 我正在处理 JSON 对象 并且需要一次又一次地查看数据 我做了警报 数据 但没有得到任何有用的东西 在原型世界中 他们有非常有用的检查方法 检查原型中的方法 http www tutorialspoint com
  • TensorFlow 2 自定义损失:“没有为任何变量提供梯度”错误

    我有一个图像分割问题必须在 TensorFlow 2 中解决 特别是 我有一个由航空图像及其各自的掩模配对组成的训练集 在蒙版中 地形为黑色 建筑物为白色 目的是预测测试集中图像的掩模 我使用带有最终 Conv2DTranspose 的 U
  • 从 UIImageView 中删除图像

    我加载一个UIImageView具有取决于用户交互的图像 当父视图最初显示时 没有选择任何图像 并且图像视图是黑色的 如果用户离开该视图并返回 图像仍然存在 我试过了 myImageView image nil 离开视图但图像仍然存在 我怎
  • 布尔值与可选 true [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 描述可以处于 选中 或 未选中 状态的某些标志的更好方法是什么 interface OperationResult success true i
  • Google Analytics (gtag.js):产品列表名称不显示,但其他字段显示

    我正在使用新的 GA 增强型电子商务gtag js图书馆 我想按照此处的文档发送有关产品印象和产品点击的信息 https developers google com analytics devguides collection gtagjs
  • Swift:将函数分配给变量

    我有一个 swift 类 其中包含以下变量 var pendingFunction Double Double gt Double 斯威夫特然后告诉我 类型名称后预期的成员名称或构造函数调用 它坚持要求我将代码更改为 var pending
  • Mongoimport 忽略 csv 中的前导零

    我有一个 CSV从 SQL Server 数据库导出文件 其中包含电话号码字段 数字类型 该字段值以前导零开头 CSV 文件中显示前导零 当我尝试将其 mongoimport 到数据库 字符串类型 时 我发现导入的数据没有前导零 目标字段编
  • 将新列附加到现有 parquet 文件

    有没有办法将新列附加到现有的镶木地板文件中 我目前正在参加 Kaggle 比赛 我已将所有数据转换为镶木地板文件 情况是这样的 我将 parquet 文件读入 pyspark DataFrame 进行了一些特征提取 并将新列附加到 Data