Spark DataSet 有效获取整行的长度大小

2023-12-09

我正在使用不同大小的数据集，每个数据集都有动态大小的列 - 对于我的应用程序，我需要知道字符的整个行长度，以估计整个行的大小（以字节或千字节为单位）。

整个行大小（以 KB 为单位）的结果将写入新列。

private void writeMyData(Dataset<Row> dataSet){

        Column[] columns = Arrays.stream(dfToWrite.columns()).map(col-> functions.col(col)).toArray(Column[]::new);

        dataSet.withColumn("marker", functions.length(functions.concat_ws( dataSet.columns()[3],columns))).write().partitionBy(hivePartitionColumn)
                .option("header", "true")
                .mode(SaveMode.Append).format(storageFormat).save(pathTowrite);

}

因为我没有任何方法org.apache.spark.sql.functions return Column[]所以我不得不使用dataSet.columns()并收集它。

但使用嵌套操作function.method每次都显得效率不高。

我宁愿有一个函数大小Column[]并返回列的整个长度。而不是嵌套操作。

有什么办法可以帮助我使用 UDF 函数来进行此类操作吗？或者有没有现成的功能可以实现这种操作？
使用这种解决方案有多糟糕？

Java 解决方案是首选。

我用spark Dataframe UDF很好的解决方案来获取字节长度，这更适合我的情况：

static UDF1 BytesSize = new UDF1<String, Integer>() {
    public Integer call(final String line) throws Exception {
        return line.getBytes().length;
    }
};

private void saveIt(){

sparkSession.udf().register("BytesSize",BytesSize,DataTypes.IntegerType);
    dfToWrite.withColumn("fullLineBytesSize",callUDF("BytesSize",functions.concat_ws( ",",columns)) ).write().partitionBy(hivePartitionColumn)
                    .option("header", "true")
                    .mode(SaveMode.Append).format(storageFormat).save(pathTowrite);
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

apachesparksql

Spark DataSet 有效获取整行的长度大小的相关文章

Java：扩展类并实现具有相同方法的接口

可能无法完成以下操作我收到编译错误继承的方法 A doSomthing int 无法隐藏 B 中的公共抽象方法 public class A int doSomthing int x return x public interface
有没有创建 Cron 表达式的 Java 代码？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要一个 Java 代码来根据用户输入创建一个 cron 表达式用户输入是时间频率和执行次数只需从评论中添加自己创建即可
java.lang.ClassNotFoundException：javax.mail.MessagingException

我想使用 eclipse 将电子邮件从我的 gmail 帐户发送到另一个邮件帐户我使用 apache tomcat 7 0 34 作为我的 Web 服务器并使用端口 8080 作为 apache 服务器 HTTP 1 1 并使用 JRE
如何在java中将数组值排序为循环格式？

我的数组值如下 String value 1 2 3 4 5 6 7 8 9 10 假设如果我将值 5 传递给 tat 数组它应该按如下顺序排序 5 6 7 8 9 10 1 2 3 4 怎么办有人帮忙吗感谢你你需要的就是所谓的轮换
两个整数乘积的模

我必须找到c c a b mod m a b c m 是 32 位整数但 a b 可以超过 32 位我正在尝试找出一种计算 c 的方法而不使用 long 或任何 gt 32 位的数据类型有任何想法吗如果m是质数事情可以简化吗注
垃圾收集器如何在幕后工作来收集死对象？

我正在阅读有关垃圾收集的内容众所周知垃圾收集会收集死亡对象并回收内存我的问题是 Collector 如何知道任何对象已死亡它使用什么数据结构来跟踪活动对象我正在研究这个问题我发现GC实际上会跟踪活动对象并标记它们每个未标记的
从 MATLAB 调用 Java？

我想要Matlab程序调用java文件最好有一个例子需要考虑三种情况 Java 内置库也就是说任何描述的here http docs oracle com javase 6 docs api 这些项目可以直接调用例如 map ja
java inputstream 打印控制台内容

sock new Socket www google com 80 out new BufferedOutputStream sock getOutputStream in new BufferedInputStream sock getI
如何在单个查询中搜索 RealmObject 的 RealmList 字段

假设我有一堂课 public class Company extends RealmObject private String companyId private RealmList
如何在 Spring 中使 @PropertyResource 优先于任何其他 application.properties ？

我正在尝试在类路径之外添加外部配置属性资源它应该覆盖任何现有的属性但以下方法不起作用 SpringBootApplication PropertySource d app properties public class MyClass
如何在.NET中使用java.util.zip.Deflater解压缩放气流？

之后我有一个转储java util zip Deflater 可以确认它是有效的因为 Java 的Inflater打开它很好并且需要在 NET中打开它 byte content ReadSample sampleName var inp
如何在JPanel中设置背景图片

你好我使用 JPanel 作为我的框架的容器然后我真的想在我的面板中使用背景图片我真的需要帮助这是我到目前为止的代码这是更新请检查这里是我的代码 import java awt import javax swing import
hibernate 6.0.2.Final 和 spring boot 2.7.0 的entityManagerFactory bean 未配置问题

所以最近我想升级我的 Spring Boot 项目项目的一些依赖项特别是这些组件雅加达 EE 9 弹簧靴2 7 休眠 6 0 2 Final 完成此操作后所有更新和代码折射更新将 javax 导入到 jakarta 以及一些 hib
将 JavaFX FXML 对象分组在一起

非常具有描述性和信息性的答案将从我这里获得价值 50 声望的赏金我正在 JavaFX 中开发一个应用程序对于视图我使用 FXML
Android S8+ 警告消息“不支持当前的显示尺寸设置，可能会出现意外行为”

我在 Samsung S8 Android 7 中收到此警告消息 APP NAME 不支持当前的显示尺寸设置可能会行为出乎意料它意味着什么以及如何删除它谢谢通过添加解决supports screens 机器人 xlargeScre
Hibernate 本机查询 - char(3) 列

我在 Oracle 中有一个表其中列 SC CUR CODE 是 CHAR 3 当我做 Query q2 em createNativeQuery select sc cur code sc amount from sector cost
Android View Canvas onDraw 未执行

我目前正在开发一个自定义视图它在画布上绘制一些图块这些图块是从多个文件加载的并将在需要时加载它们将由 AsyncTask 加载如果它们已经加载它们只会被绘制在画布上这工作正常如果加载了这些图片 AsyncTask 就会触发v
Java 11 - 将 Spring @PostConstruct 替换为 afterPropertiesSet 或使用 initMethod

我正在使用 spring 应用程序有时会使用 PostConstruct用于代码和测试中的设置看来注释将被排除在外Java 11 https www baeldung com spring postconstruct predestro
由 Servlet 容器提供服务的 WebSocket

上周我研究了 WebSockets 并对如何使用 Java Servlet API 实现服务器端进行了一些思考我没有花费太多时间但在使用 Tomcat 进行一些测试时遇到了以下问题如果不修补容器或至少对 HttpServletResp
java'assert'和'if(){}else exit;'之间的区别

java和java有什么区别assert and if else exit 我可以用吗if else exit代替assert 也许有点谷歌您应该记住的主要事情是 if else 语句应该用于程序流程控制而assert 关键字应该仅用于

随机推荐

Kinect / Primesense (Xtion) ROS Ubuntu 通过虚拟机 (VMware)

由于我花了相当长的时间才弄清楚如何让 Xtion Primesense 在 VMware 上工作所以我想在这里与大家分享使用 Kinect 时即使 VMware 已成功连接该设备我也无法让 ROS 查看该设备 roslaunch o
ARM：为什么立即数只有 12 位？

这是什么意思我只有 12 位用于立即常量所以我只能表示从 0 到 2 12 4096 的立即常量吗操作数 2 如果是寄存器可以有 32 位但为什么立即数只有 12 位这个数字从哪里来它由指令集定义例如这MOV指令编码为 3
如何使用 dask/dask-cudf 将单个大型镶木地板文件读取到多个分区？

我正在尝试阅读一个大的parquet文件大小 gt gpu size 使用dask cudf dask但它目前正在将其读入单个分区我猜测这是从文档字符串推断出的预期行为 dask dataframe read parquet path
java中骑行和使用equals方法遇到的问题

我在尝试弄清楚如何比较 AM FM 和 XM 之间的 selectedRadio 时遇到问题以便我可以确定它当前所在的位置然后返回特定收音机的电台我知道我需要 equals 方法我只是不确定使用它来获得我正在寻找的结果的正确方法 p
使用 Rails 2.3.18 在 [] (Gem::LoadError) 中找不到捆绑器 (>= 0)

我有红宝石版本ruby 1 9 3 p547 x86 64 我正在用它导轨3 0 现在我有一个 Rails 版本的项目 2 3 18 当我通过命令提示符进入项目时它要求安装rvm使用ree 1 8 7 2012 02 x86 64 当我运
VS2015没有TypeScript模板，不支持TypeScript

我正在研究 Visual Studio 2015 专业版我已经使用 npm 安装了 TypeScript 安装了 TypeScript 2 0 3 然后我尝试使用右键单击项目的 tsScript 文件夹添加 TypeScript 文件 g
MPI 创建的进程的共享内存访问控制机制

我有一个由多个进程使用的共享内存这些进程是使用创建的MPI 现在我需要一种机制来控制这个共享内存的访问我知道named semaphore and flock可以使用机制来做到这一点但只是想知道 MPI 是否为共享内存使用提供任何特殊
如何在 TypeScript 中实现 pluck 函数？

我经常需要从对象中提取属性 const obj a 1 b 2 c 3 const plucked pluck obj a b a 1 b 2 然而如果你想要类型安全这在 TypeScript 中并不容易做到因为我无法在 TypeSc
如何在 jQuery 的 `val` 中访问元素本身？

我的代码如下 const pagedata name Value for name email Value for email fillvalfromvar val pagedata this attr id 我需要填充所有具有以下元素的元
SQL 运算符与“">=”和“<=”运算符之间的差异

我们使用 SQL 查询根据 dateFrom 和 dateTo 字段进行搜索为此我正在使用大于等于 gt and 小于等于用于搜索日期字段的运算符我还发现我们还可以使用 SQL Between 操作员做同样的事情只是想确认一下我们
py.test 未启动（EBUSY：[资源设备]）

刚刚安装了 py testpip install U pytest没有错误但是我们正在尝试启动py test我收到错误 EBUSY Resource device listdir C Users Administrator AppData
简单的 html dom - 类名中的空格

我正在使用 PHP Simple HTML DOM 从网站不是我的的源代码中获取元素当我找到一个名为 board List 的 ul 类时没有找到它我认为这可能是一个问题空间大但不知道怎么解决这是一段php代码 html st
oracle查询中1000000转1M和1000转1K

我想通过使用 oracle 查询显示如下给出的数字 1000000 1M 22000 22k 请问有什么方法可以在oracle查询中做到这一点吗我认为没有标准函数科学计数法除外但您可以自己定义这样的函数 SQL gt WITH DAT
在循环 TStringList 项时是否有避免越界索引错误的良好实践？

首先我的代码 procedure TForm1 Button3Click Sender TObject var tempId i integer begin tempId strtoint edit5 Text plik TStringL
ADO 正在截断 Excel 数据

我有一个使用 ADO 从工作表内容获取 ADODB 记录集的函数如下所示 Function WorksheetRecordset workbookPath As String sheetName As String As adodb Re
如何在 JSFiddle 上使用 CommonJS 模块？

有没有办法在 plnkr JSFiddle 或 JS Bin 等网站上使用 CommonJS 模块我想把它变成一个全球性的这是为了轻松提供演示而无需使用 UMD 我会找到 Github 存储库然后使用引用源文件rawgit com
Jquery 日期规则在 Firefox 和 IE 中不起作用

我已经用 jquery 日期规则渲染了普通文本日期规则在 chrome 中工作正常但在 Firefox 和 IE 中不起作用请查看我的代码块
MutableStateFlow 不适用于 MutableList

这是我尝试使用的 MutableStateFlow 值 val songList MutableStateFlow
Maven + Spring + Hibernate：hibernate3-maven-plugin hbm2ddl 失败，原因为“由：java.lang.NullPointerException”

由于 Spring 目前缺乏对 Hibernate 4 的支持我不得不将 Hibernate 从版本 4 降级到版本 3 具体来说是 3 3 2 GA 并且现在项目在尝试使用 hbm2ddl 生成模式时无法构建这个错误太模糊了谷歌搜索
Spark DataSet 有效获取整行的长度大小

我正在使用不同大小的数据集每个数据集都有动态大小的列对于我的应用程序我需要知道字符的整个行长度以估计整个行的大小以字节或千字节为单位整个行大小以 KB 为单位的结果将写入新列 private void writeMyData

Spark DataSet 有效获取整行的长度大小

Spark DataSet 有效获取整行的长度大小 的相关文章

随机推荐

热门标签

Spark DataSet 有效获取整行的长度大小的相关文章