pyspark中指定多列数据类型更改为不同数据类型

2023-12-11

我有一个数据框（df）由50多个列和不同类型的数据类型组成，例如

df3.printSchema()


     CtpJobId: string (nullable = true)
 |-- TransformJobStateId: string (nullable = true)
 |-- LastError: string (nullable = true)
 |-- PriorityDate: string (nullable = true)
 |-- QueuedTime: string (nullable = true)
 |-- AccurateAsOf: string (nullable = true)
 |-- SentToDevice: string (nullable = true)
 |-- StartedAtDevice: string (nullable = true)
 |-- ProcessStart: string (nullable = true)
 |-- LastProgressAt: string (nullable = true)
 |-- ProcessEnd: string (nullable = true)
 |-- ClipFirstFrameNumber: string (nullable = true)
 |-- ClipLastFrameNumber: double (nullable = true)
 |-- SourceNamedLocation: string (nullable = true)
 |-- TargetId: string (nullable = true)
 |-- TargetNamedLocation: string (nullable = true)
 |-- TargetDirectory: string (nullable = true)
 |-- TargetFilename: string (nullable = true)
 |-- Description: string (nullable = true)
 |-- AssignedDeviceId: string (nullable = true)
 |-- DeviceResourceId: string (nullable = true)
 |-- DeviceName: string (nullable = true)
 |-- srcDropFrame: string (nullable = true)
 |-- srcDuration: double (nullable = true)
 |-- srcFrameRate: double (nullable = true)
 |-- srcHeight: double (nullable = true)
 |-- srcMediaFormat: string (nullable = true)
 |-- srcWidth: double (nullable = true)

现在我希望所有一种类型的列都可以一次性更改，例如

timestamp_type = [
    'PriorityDate', 'QueuedTime', 'AccurateAsOf', 'SentToDevice', 
    'StartedAtDevice', 'ProcessStart', 'LastProgressAt', 'ProcessEnd'
]


integer_type = [
    'ClipFirstFrameNumber', 'ClipLastFrameNumber', 'TargetId', 'srcHeight',
    'srcMediaFormat', 'srcWidth'
]

我知道如何一一做，就像我现在所做的那样。

df3 = df3.withColumn("PriorityDate", df3["PriorityDate"].cast(TimestampType()))
df3 = df3.withColumn("QueuedTime", df3["QueuedTime"].cast(TimestampType()))
df3 = df3.withColumn("AccurateAsOf", df3["AccurateAsOf"].cast(TimestampType())

df3= df3.withColumn("srcMediaFormat", df3["srcMediaFormat"].cast(IntegerType()))
df3= df3.withColumn("DeviceResourceId", df3["DeviceResourceId"].cast(IntegerType()))
df3= df3.withColumn("AssignedDeviceId", df3["AssignedDeviceId"].cast(IntegerType()))

但这看起来很难看，而且我很容易错过任何我想更改的列。有什么方法可以编写任何函数来处理要更改的相同类型的列列表。这样我就可以轻松实现convert_data_type并传递这些列名称。提前致谢

您应该使用循环，而不是枚举所有值：

for c in timestamp_type:
    df3 = df3.withColumn(c, df[c].cast(TimestampType()))

for c in integer_type:
    df3 = df3.withColumn(c, df[c].cast(IntegerType()))

或者等效地，您可以使用functools.reduce:

from functools import reduce   # not needed in python 2
df3 = reduce(
    lambda df, c: df.withColumn(c, df[c].cast(TimestampType())), 
    timestamp_type,
    df3
)

df3 = reduce(
    lambda df, c: df.withColumn(c, df[c].cast(IntegerType())),
    integer_type,
    df3
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

apachespark

PySpark

Databricks

pyspark中指定多列数据类型更改为不同数据类型的相关文章

如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
在python中浏览ftp目录

我正在尝试使用 ftplib 使用 Python 3 从 ftp 服务器下载多个文件夹我有一个文件夹名称列表它们都位于文件夹 root 中问题是我不知道如何浏览它们当我使用cwd我可以进入更深的目录但是如何再次起来呢我正在尝试得
如何从 pyspark 中的数据框中选择一系列行

我有一个包含 10609 行的数据框我想一次将 100 行转换为 JSON 并将它们发送回 Web 服务我尝试过使用 SQL 的 LIMIT 子句例如 temptable spark sql select item code 1 fr
如何读取 sql 查询到 pandas dataframe / python / django

我在下面使用这个views py获取应用程序 from django db import connection def test request cursor connection cursor sql SELECT x n from ta
Python 对象初始化错误。或者我误解了对象的工作原理？ [复制]

这个问题在这里已经有答案了 1 import sys 2 3 class dummy object 4 def init self val 5 self val val 6 7 class myobj object 8 def init s
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
在 matplotlib 中分割图例

是否有可能将一个大图例分成多个通常是 2 个较小的图例 from pylab import t arange 0 0 2 0 0 01 s sin 2 pi t plot t s linewidth 1 0 label Graph1 g
Django 自定义查询集过滤器

在 Django 中是否有一种标准方法可以为查询集编写复杂的自定义过滤器就像我能写的一样 MyClass objects all filter field val 我想做这样的事情 MyClass objects all filter
Django：上传前调整图像大小

我想调整图像大小 Pillow 在上传之前我在下面编写了代码但不起作用并得到错误 myapp list 处的属性错误坚定的请求方式 POST 请求网址 http 127 0 0 1 8000 myapp list http 127
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
带参数的 Python 列表过滤

python中有没有一种方法可以在列表上调用过滤器其中过滤函数在调用期间绑定了许多参数例如有没有办法做这样的事情 gt gt def foo a b c return a lt b and b lt c gt gt myList 1 2
如何下载和使用对象检测数据集（例如 coco 或 pascal）

我对物体检测领域非常陌生我想知道是否有人可以帮助我下载和使用对象检测数据集例如 coco 或 pascal 当我下载数据集后访问他们的网站时我觉得我不知道应该如何处理它们我知道这个问题很愚蠢但是开始的提示可能非常有用谢谢我正在
纯Python库读写jpeg格式

伙计们我正在寻找 jpeg 写入阅读会很好但不是必需的库的纯 python 实现我只在以下位置创建了 TonyJPEG 库端口 http mail python org pipermail image sig 2004 Novem
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

即使使用 EnableDelayedExpansion，%time% 也不会在 for 循环中扩展[重复]

这个问题在这里已经有答案了所以我注意到批处理文件的日志中的 time 变量不准确如下所示输出包含在代码下方它在进入 for 循环时获取当前时间但不会随时更新这些 zip 文件很大有时需要几分钟才能解压每个文件有人知道这里发生
带有导航控制器的选项卡栏应用程序

我有一个简单的 iPhone 应用程序有一个选项卡栏和 3 个选项卡每个选项卡作为一个带有相应控制器的单独笔尖加载每个笔尖都包含一个表格视图其中包含一些其他用于搜索过滤等的控件我想要的并且似乎找不到示例是向应用程序添加一个导
Karate - 在 karate-config.js 中设置全局 User-Agent 标头

所以我写了一些测试功能我想全局添加 User Agent 标头我更新了我的空手道配置 js为此归档我添加下面的代码 karate configure headers User Agent Karete Apache HttpClien
有没有办法在“交互”命令后“期望”和“发送”

因此我需要在标准输出上输出远程进程的输出但我还需要能够监听它并在匹配我的关键字后发送命令我需要这样的东西我知道这段代码不正确它的唯一目的是说明我需要什么 usr bin expect log user 0 spawn ssh
我怎样才能在jquery中获取锚标记内的文本

div a link1 a a href link2 a div jquery div1 a click function var text div1 a text 在上面的标签上我想在我点击它的锚标签旁边获取文本但是单击上面的每个锚标
使用 2 Legged OAUTH / OPEN ID 域帐户通过 Google GData API 批量更新电子表格

好吧周末就这样拍摄了这是我周日晚上最后一次求助必须使用 2 Legged OAUTH 方法的 Google Marketplace 应用程序需要将 50K 记录写入 Google 文档电子表格我能够创建记录调整大小重命名记录并将
私有设置器仅在发布版本上抛出错误

我有一个地图图块设置我正在通过菜单按钮进行更新我遇到了一个奇怪的情况我只在发布版本上遇到错误代码如下视图模型 private KnownTileSource selectedTile public KnownTileSource
R 直方图“x”必须是数字

我有一个 csv 文件 TwitterCount 其内容如下 Tom 3 Alex 4 Sedgwick 1 并将文件读入r 我正在尝试用我拥有的数据绘制直方图但它不断产生错误 x 必须是数字这是我到目前为止的脚本 userc read
带有 COM 接口的 MFC Dll

我对托管非托管互操作性和 COM 概念还很陌生我收到了使用 COM Interop 的建议以便在 C 中使用我现有的 MFC 代码但对我来说问题是我有一个 MFC Dll 它不是有效的 COM 组件如何使该 MFC DLL 具有
为什么引用未声明的变量会引发引用异常，但引用未声明的属性却不会？

Mozilla 说变量是全局对象的属性如果对象具有未定义的属性则尝试访问它不会创建引用异常它只是返回该属性未定义如果存在这样一个全局对象那么为什么访问其不存在的属性即变量会产生引用错误这两种情况到底有什么区别 Exampl
ggplot2：饼图而不是 xy 散点图中的点

我有一个四维数据集我们将变量称为 x y z 和 r x 和 y 的每种组合最多有一个条目目前我有一个散点图我在位置 x y 和大小 z 处为每个条目绘制一个点 ggplot aes x x y y geom point aes s
Django：有没有办法将外键字段添加到“unique_together”？

我希望能够使模型在来自外键模型的值上具有唯一性不确定这在 django 中是否可行示例我有一个模型 A class modelA models Model fieldA1 models AutoField primary key Tr
C++原子CAS（比较和交换）操作不改变值

在下面的示例中实际发生了什么为什么兑换成功后价值没有变化 Live https wandbox org permlink f5VYSKfQ9UJqa8FQ std atomic
Google Play 排除设备

我有以下内容AndroidManifest xml
WPF 指定控件的长度（以毫米为单位）

这些天我正在开发一个复杂的 WPF 应用程序到目前为止这是一次很好的经历但我被困在一个点上它是一个设计器应用程序用户将自定义控件拖动到画布上并设置其属性目前用户可以以 cm in px 和 pt 为单位指定控件的长度我需要给
带有格式化程序的 SwiftUI TextField 不起作用？

我正在尝试更新数字字段因此我使用带有 formatter 参数集的 TextField 它可以很好地将数字格式化到输入字段中但在编辑时不会更新绑定值在没有指定格式化程序的情况下 TextField 可以正常工作在字符串上这是一个错
Bootstrap 3 不同高度的响应式列

EDIT定价表的内容将全部动态生成我无法预测它们的高度我只是使用400px图表的情况所以我无法为每列设置静态高度作为修复我有 8 个定价表他们都是similar高度接近 400px 最大红色方块高度为 430 像素最小高度为
如何使用 vue 3 从字符串渲染组件？

我正在尝试从字符串渲染组件但没有成功我的代码如下
我应该为 mp3 使用哪种 mime 类型

我正在尝试决定选择哪种 mime 类型来返回 mp3 数据由 php 提供根据此 mime 类型列表 http www webmaster toolkit com mime types shtml mp3 audio mpeg3 mp3
pyspark中指定多列数据类型更改为不同数据类型

我有一个数据框 df 由50多个列和不同类型的数据类型组成例如 df3 printSchema CtpJobId string nullable true TransformJobStateId string nullable true

pyspark中指定多列数据类型更改为不同数据类型

pyspark中指定多列数据类型更改为不同数据类型 的相关文章

随机推荐

热门标签

pyspark中指定多列数据类型更改为不同数据类型的相关文章