spark 转换tfrecord 成parquet格式

2023-05-16

读取tfrecord 成parquet文件格式
read_tfrecord.py

#coding:utf-8

"""
读取tfrecord生成parquet文件格式
"""
import os
import time
import argparse
# from pyspark.sql import SparkSession
# from pyspark.conf import SparkConf
from pyspark.sql.functions import rand, udf, lit
# from pyspark.sql.functions import xxhash64
from pyspark.sql.functions import hash  as xxhash64
from pyspark.sql.types import FloatType, LongType
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql import SparkSession

if __name__ == "__main__":
  # read
  sc = SparkContext()
  sqlContext = SQLContext(sc)
  spark = SparkSession.builder.getOrCreate()

  hadoop = sc._jvm.org.apache.hadoop
  conf = hadoop.conf.Configuration()
  fs = hadoop.fs.FileSystem.get(conf)
  # 小的测试文件
  path = "viewfs://hadoop/user/hadoop-hdp/dlrm_data/train_record"
  df = spark.read.format("tfrecords").option("recordType", "Example").load(path)
  df.printSchema()
  df.show(n=2)
  
  make_sparse = udf(
            lambda s, i: s[i-1],
            LongType(),
        )
  sparse_cols = [
      make_sparse("spa_fea", lit(i)).alias("C{0}".format(i)) for i in range(1, 27)
  ]
    
  make_dense = udf(
            lambda s, i: s[i-1],
            FloatType(),
        )
  dense_cols = [
      make_dense("den_fea", lit(i)).alias("I{0}".format(i)) for i in range(1, 14)
  ]  
  
  make_label = udf(lambda s: float(s), FloatType())
  label_col = make_label("label").alias("label")
  
  cols = [label_col] + dense_cols + sparse_cols
  
  new_df =  df.select(cols)
  
  new_df.show(n=2)
  
  
  part_num = 1024
  new_df = new_df.repartition(part_num)
  # 小的测试文件
  train_output_dir = "viewfs://hadoop/user/hadoop-hdp/dlrm_data/train"
  
  new_df.write.mode("overwrite").parquet(train_output_dir)
  num_examples = sqlContext.read.parquet(train_output_dir).count()
  print(train_output_dir, num_examples)

提交spark 到集群

queue="root.test"
master="yarn-cluster"
num_executors="2"
driver_memory="40g"
executor_cores=4
executor_memory="40g"

/opt/meituan/spark-2.2/bin/spark-submit --queue $queue --conf spark.job.owner=${myusername} \
  --executor-cores "$executor_cores" \
  --executor-memory "$executor_memory" \
  --master yarn \
  --deploy-mode cluster \
  --num-executors "$num_executors" \
  --driver-memory "$driver_memory" \
  --conf spark.driver.maxResultSize=0  \
  --jars viewfs:///user/hadoop/jars/spark-tensorflow-connector_2.11-1.15.0.jar \
  read_tfrecord.py

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

TFRecord

parquet

spark 转换tfrecord 成parquet格式的相关文章

2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可
gzipped Parquet 文件在 HDFS for Spark 中可拆分吗？

在互联网上搜索和阅读有关此主题的答案时我收到了令人困惑的消息有人可以分享他们的经验吗我知道 gzipped csv 不是这样的事实但也许 Parquet 的文件内部结构是这样的 Parquet 与 csv 的情况完全不同使用 GZ
将 Spark 数据帧写入镶木地板格式时出现内存不足错误

我正在尝试从数据库中查询数据对其进行一些转换并将新数据以 parquet 格式保存在 hdfs 上由于数据库查询返回大量行因此我正在批量获取数据并在每个传入批次上运行上述过程更新2 批处理逻辑为 import scala colle
如何使用 Apache Spark 将 JSON 文件转换为 parquet？

我是 Apache Spark 1 3 1 的新手如何将 JSON 文件转换为 Parquet Spark 1 4 及更高版本您可以使用sparkSQL 首先将JSON 文件读入DataFrame 然后将DataFrame 写入parq
将 Kafka 中的 Avro 转换为 Parquet 直接转入 S3

我的 Kafka 主题以 Avro 格式存储我想使用整个主题在收到时不会更改任何消息并将其转换为 Parquet 直接保存在 S3 上我目前正在这样做但它需要我一次使用来自 Kafka 的消息并在本地计算机上处理将它们转换为
为什么 UnixSystem().getUsername() 返回 null（Docker 中的 OpenJDK 17）

以下代码适用于 OSX var hadoopInputFile org apache parquet hadoop util HadoopInputFile fromPath parquetPath new Configuration 但在
获取 HDFS 中 parquet 文件的大小，以便在 Scala 中使用 Spark 重新分区

我在 HDFS 上有许多 parquet 文件目录每个目录包含数千个小大多数使用以下代码我可以将本地镶木地板文件重新分区为更少数量的部分 val pqFile sqlContext read parquet file home ha
如何配置 AWS Athena 结果的文件格式

目前 Athena 查询结果在 S3 中为 tsv 格式有没有办法配置 Athena 查询以返回 Parquet 格式的结果 Answer 目前无法直接与 Athena 进行此操作在配置 Athena 查询结果时您只能设置查询结果位置
Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

我正在使用本地计算机上的 Apache Spark 3 0 将分区数据 Parquet 文件写入 AWS S3 而无需在计算机中安装 Hadoop 当我有很多文件要写入大约 50 个分区 partitionBy date 时我在写入 S
使用 AWS Glue ETL 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件 python Spark (pyspark)

我每 15 分钟运行一次 AWS Glue ETL 作业每次在 S3 中生成 1 个 parquet 文件我需要创建另一个作业以在每小时结束时运行以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 par
Spark SQL：嵌套类镶木地板错误

我似乎无法写镶木地板JavaRDD
Spark DataFrame 的 SparkRcollect() 和 head() 错误：参数意味着行数不同

我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n
Hive alter table 更改列名称为重命名的列提供“NULL”

我曾尝试将表中的现有列重命名为新列但名称更改后新列只给我 NULL 值 Parquet 中表的存储格式例如 user 是 Test 表中字符串数据类型的列插入了值为 John 的示例记录 Select user from Test
Spark：强制读取模式时 Parquet DataFrame 操作失败

火花2 0 2 当您拥有具有不同架构的镶木地板文件并在读取期间强制使用该架构时就会出现此问题即使您可以打印架构并运行show 好的您无法对缺失的列应用任何过滤逻辑以下是两个示例架构 assuming you are running
AnalysisException：路径不存在：dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data；

我将以下代码打包到 whl 文件中 from pkg resources import resource filename def path to model anomaly dir name str data path str filep
将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

这个问题在这里已经有答案了我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源因此架构在到达之前无法更改该文件包含属性映射在我收到文件之前属性名称是未知的属性名称包含不能在 parq
保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt
Apache Spark Parquet：无法构建空组

我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的今天切换我有一个数据集 root muons array nullable true element struct containsNull true reco
我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗？

我刚刚读到 HDF5 允许您访问数据查找而无需将整个文件读入内存这种寻找行为在没有 Java 的 Parquet 文件中是否可能非 pyspark 解决方案我使用 Parquet 是因为它有强大的 dtype 支持 import h
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf

随机推荐

计算机网络 -- RS232接口 ----OSI物理层协议----RS232接口

个人计算机上的通讯接口之一 xff0c 由电子工业协会 Electronic Industries Association xff0c EIA 所制定的异步传输标准接口是目前使用最广泛的串行物理接口 xff0c 必须理解 xff1a 1
来自一个前端大神转产品经理后的聊天感悟

给的学习建议 xff1a 1 推荐给我一本书锋利的jQuery 2 学会使用思维导图工具 3 课余时间学习理财 4 研发过程中 xff0c 多多留心一些交互 xff0c 自己完善反复琢磨自己的思路 xff08 保证是最简的 xff09 5
算法竞赛入门经典(第二版)-刘汝佳-第三章数组与字符串例题+习题（17/18）

文章目录说明例题例3 1 UVA 272 TeX 中的引号例3 2 UVA 10082 WERTYU例3 3 UVA 401 回文词例3 4 UVA 340 猜数字游戏的提示例3 5 UVA 1583 生成元例3 6 UVA 1584 环
http_parse使用与学习

最近学习了下http parse解析库 xff0c 是nginx的一个解析http库 xff0c 在解析的过程中 xff0c 它不会调用任何系统调用 xff0c 不会在HEAP上申请内存 xff0c 不会缓存数据 xff0c 并且可以在任意
编译安装googletest

googleTest git clone https github com google googletest cd googletest mkdir build cd build cmake DBUILD SHARED LIBS 61 O
通过容器打印出容器的启动命令

使用 runlike sudo apt get install python3 pip sudo apt get install python3 安装runlike pip install runlike 使用 runlike 容器名例如
使用 supervisor 管理进程

Supervisor 是一个用 Python 写的进程管理工具 xff0c 可以很方便的用来启动重启关闭进程 xff08 不仅仅是 Python 进程 xff09 除了对单个进程的控制 xff0c 还可以同时启动关闭多个进程 xff0
ERRO[0000] unable to determine runtime API version: rpc error: code = Unavailable desc = connection

遇到错误 xff1a ERRO 0000 unable to determine runtime API version rpc error code 61 Unavailable desc 61 connection error desc
kubelet Container runtime network not ready“ networkReady=“NetworkReady=false reason:NetworkPluginNo

执行 xff1a systemctl status kubelet 报错信息 xff1a E1006 17 36 42 438319 433223 kubelet go 2373 34 Container runtime network n
磁盘划分和磁盘格式化

文章目录列出装置的 UUID 等参数parted 列出磁盘的分区表类型与分区信息磁盘分区 xff1a gdisk fdisk用 gdisk 新增分区槽用 gdisk 删除一个分区槽磁盘格式化 xff08 建立文件系统 xff09 XFS
tmux 最新版本安装

tmux centos系统安装依赖 yum install openssl devel wget https github com libevent libevent releases download release 2 1 12 st
自动保存恢复tmux会话关机重启再也不怕

整个解决方案由三个tmux插件组成需要注意的是 xff0c 使用这两个 Tmux 插件要求 Tmux 是 1 9 及以上版本 xff0c 如果不符合要求 xff0c 赶紧升级吧可以参考 xff1a tmux安装最新版本 tpm xff1
parse error on line 1, column 4: bare “ in non-quoted-field

golang报错 xff1a parse error on line 1 column 4 bare 34 in non quoted field 可能的原因是csv是windowns 导出的 xff0c 编码方式是UTF 8 BOM 方式
CPU和GPU性能指标收集

这里的CPU是AMD的芯片总的性能指标 Total mem Bw Total mem RdBw Total mem WrBw uperf PCIE 上行带宽上行网卡到内存通过 uperf 查看 XGMI uperf NVLink 带
PX4 Bootloader解析

1 引言半年前入手了Pixhawk V2全套硬件 xff0c 编译好的开源固件也下了 xff0c 四轴也飞了 xff0c 一直想对这套开源飞控进行一个系统地解析 xff0c 由于工作原因一直没时间最近翻开了PX4飞控源代码 xff0c
进程内存使用

查看进程内存使用 28028 是进程的pid top p 28028 还可以查看进程的status文件 xff1a cat proc 28028 status VmRSS对应的值就是物理内存占用内存占用比较多的程序 ps aux sort
perf使用

perf可记录高达700多种events事件 sudo perf list 可以查看可以perf的事件 sudo perf record F 999 e cpu clock faults a g p 28544 sleep 60 制定进程7
gperftools

gperftools 实现了更高性能的多线程的malloc 实现增加了极好的性能分析工具 gperftools 的前身是 pprof https github com google pprof sudo apt get install a
RDMA 设备查看

1硬件检测 1 1检查硬件是否安装确认硬件已安装 lspci tvm grep Mellanox 查看OFED驱动版本命令如果没有驱动可以参考 https km sankuai com page 335338645 安装 rpm qa
spark 转换tfrecord 成parquet格式

读取tfrecord 成parquet文件格式 read tfrecord py coding utf 8 34 34 34 读取tfrecord生成parquet文件格式 34 34 34 import os import time im

spark 转换tfrecord 成parquet格式

spark 转换tfrecord 成parquet格式 的相关文章

随机推荐

热门标签

spark 转换tfrecord 成parquet格式的相关文章