Python Spark从数据框中提取字符

2024-02-11

我在 Spark 中有一个数据框，如下所示：

ID     | Column
------ | ----
1      | STRINGOFLETTERS
2      | SOMEOTHERCHARACTERS
3      | ANOTHERSTRING
4      | EXAMPLEEXAMPLE

我想做的是从列中提取前 5 个字符加上第 8 个字符并创建一个新列，如下所示：

ID     | New Column
------ | ------
1      | STRIN_F
2      | SOMEO_E
3      | ANOTH_S
4      | EXAMP_E

我无法使用以下编解码器，因为列中的值不同，并且我不想在特定字符上分割，而是在第 6 个字符上分割：

import pyspark
split_col = pyspark.sql.functions.split(DF['column'], ' ')
newDF = DF.withColumn('new_column', split_col.getItem(0))

谢谢大家！

使用这样的东西：

df.withColumn('new_column', concat(df.Column.substr(1, 5),
                                   lit('_'),
                                   df.Column.substr(8, 1)))

这个使用函数substr https://spark.apache.org/docs/1.6.1/api/python/pyspark.sql.html#pyspark.sql.Column.substr and concat https://spark.apache.org/docs/1.6.1/api/python/pyspark.sql.html#pyspark.sql.functions.concat

这些功能将解决您的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

apachespark

PySpark

Python Spark从数据框中提取字符的相关文章

如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Python：返回 // 正则表达式之间的字符串[重复]

这个问题在这里已经有答案了我仍然不明白正则表达式我阅读了文档但是在我想出了正则表达式字符之后那么如何使用它们呢例如我只想返回前两个斜杠之间的任何内容 en lemon peel n ca llimona n is 的输出应该是
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
比较两个 numpy 数组的最快方法

我有两个数组 gt gt gt import numpy as np gt gt gt a np array 2 1 3 3 3 gt gt gt b np array 1 2 3 3 3 无论顺序如何比较这两个数组的元素是否相等的最快方
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
使用 Python Pandas 获取多个值来制作表格

使用我的代码我可以将两个 Excel 数据库连接到 1 中问题是它只显示收入列而不显示列展示次数为了更清楚我留下了代码和示例我尝试过 df1 df1 pivot index Cliente columns Fecha value
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Python pysft/paramiko“协商期间的EOF”错误

我正在使用 pysftp 下载和上传一些文件这个完全相同的代码我在一小时前刚刚运行过并且很好但现在我收到了协商期间的 EOF 错误我在这里缺少什么 gt gt gt sftp pysftp Connection host usern
python 根据日期创建目录结构

我使用以下函数根据今天的日期创建目录 usr bin python import time datetime os today datetime date today todaystr today isoformat os mkdir to
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201

随机推荐

Python Flask - 客户端 GUI

我想运行客户端文件对话框 GUI 以便用户可以选择要使用 python 处理的文件 example https stackoverflow com a 14119223 2327328 我的代码基本上工作正常在这里 from flask
AngularJS 表达式中的 $locals 是什么？

AngularJS 表达式开发人员指南 https docs angularjs org guide expression提到了一个名为 locals 可以使用标识符 this 访问上下文对象并使用标识符 locals 访问本地对象我不
使 Subversion 修订版号在我的 R 脚本中可见

我把这个东西放在我的源代码中对现在它只是一个加上测试脚本 REVISION function x substring x first 7 last nchar x 2 Rev 8727 但真正的 R 程序员是怎么做的呢这是一个非常
在 ArrayList 中查找项目索引的更好方法？

对于 Android 应用程序我有以下功能 private ArrayList
Android 上的 Apache Commons IO

我正在开发一个 Android 应用程序使用Apache 公共 IO http commons apache org proper commons io download io cgi commons io 2 4 bin tar gz
常量的好处

我知道关于常量的一大问题是您不必遍历和更新到处使用该常量的代码这很好但假设您没有明确将其声明为常量采用实际上不会更改的变量并将其设为常量有什么好处这会节省处理和或代码大小等吗基本上我有一个程序编译器说某个特定变量没有更改
如何在 DOM 中创建没有 SVG 元素的 SVG 矩阵

我一直在访问 SVGMatrix 原型以利用其强大的矩阵转换功能这些转换不一定与任何 SVG 元素相关 var svgElement svg 0 var svgMatrix svgElement createSVGMatrix Obje
Chrome 开发者工具中的 Webpack 3.5.5 调试显示两个源文件。一个在 webpack:// 下，另一个在 webpack-internal:// 下

迁移现有的 webpack 项目以使用 webpack 3 5 5 及其新配置使用 Express 服务器而不是 webpack dev server 我必须在 webpack 中设置解析如下所示 const resolve exten
比较对象的不同实现的优点/缺点

这个问题涉及本质上相同的代码的两种不同实现首先使用委托创建一个 Comparison 方法该方法可以在对对象集合进行排序时用作参数 class Foo public static Comparison
内容安全策略 (CSP)：如果使用元标记，是否可以以某种方式报告违规行为？

在玩了相当长一段时间后我仍在寻找解决方案某个网站的内容安全策略需要一长串允许的来源特别是因为 Google 使用动态 TLD 加载某些内容 Google 在文档中还指出这对于某些服务是必要的 https developers goog
使垂直菜单高度适合 100%

我画了一张草图https i stack imgur com NiSi8 jpg https i stack imgur com NiSi8 jpg所以侧边栏必须与内容侧边栏一起一直向下拖动它的高度应该是 100 以及它的所有父级 div
为什么 tailwind 不覆盖本地定义的样式？

我正在尝试通过 tailwindcss 麦粒肿更改文本的默认颜色但我不明白为什么它不起作用但 Bootstrap 确实会覆盖默认样式我是 tailwindcss 的新手有人能告诉我这里发生了什么事吗在这里您可以在codesandb
检查 QFont 是 Serif 还是 Sans-Serif

我有一个由用户选择的 QFont QFont font QFontDialog getFont ok prevFont this 我如何知道它是否是衬线字体这有效吗 bool isSansSerrif font styleHint QFo
Java 中的时间对象是什么？

我在探索TemporalQuery http docs oracle com javase 8 docs api java time temporal TemporalQuery html and TemporalAccessor http
如何在 Eclipse 中运行 Java 9 主类而不编辑启动配置？

我在 Eclipse Oxygen 1a Release 4 7 1a 的 Maven 项目中创建了一个简单的 Hello World 主类和一个 module info java 文件运行在 Java 9 0 1 上当我尝试右键单击启
如何将mysql数据库中的表导出到excel？

我在 mysql 中有一个表该表非常大有超过 100k 行我想将其导出到 Excel 但是我尝试了 phpmyadmin 上的导出到 excel 功能但转储 excel 文件需要很长时间这甚至不是倾销错误始终是连接已重置有
是否有基于终端及其祖先映射递归数据类型的名称？

假设我有一个如下所示的类型 data Term a Terminal a Application Term a Term a Abstraction String Term a 现在我想绘制地图Term a to Term b 理想情况下
如何在 Emacs 中检查 Python 代码的语法而不实际执行它？

Python 的 IDLE 有检查模块 Alt X 来检查语法无需运行代码即可调用该语法在 Emacs 中是否有等效的方法来执行此操作而不是运行和执行代码 python m py compile script py
Java N/IO 中的行分隔符？

使用以下命令写入 txt 文件时如何插入新行java nio file 以下代码生成一个只有一行的txt文件ABCDEF 而不是两条单独的线ABC and DEF public static void main String args th
Python Spark从数据框中提取字符

我在 Spark 中有一个数据框如下所示 ID Column 1 STRINGOFLETTERS 2 SOMEOTHERCHARACTERS 3 ANOTHERSTRING 4 EXAMPLEEXAMPLE 我想做的是从列中提取前 5 个

Python Spark从数据框中提取字符

Python Spark从数据框中提取字符 的相关文章

随机推荐

热门标签

Python Spark从数据框中提取字符的相关文章