替换数据框中的重复列

2024-04-20

我有一个data frame in pyspark。该数据框有一些带有特殊字符的列。

cols = df.schema.names

cols
['abc test', 'test*abc', 'eng)test', 'abc_&test']

reps = ((' ', '_&'), ('(', '*_'), (')', '_*'), ('{', '#_'), ('}', '_#'), (';', '_##'), ('.', '_$'), (',', '_$$'), ('=', '_**'))

def col_rename(x):
    new_cols = reduce(lambda a, kv: a.replace(*kv), reps, x)

for i in cols:
    df = df.withColumnRenamed(i, col_rename(cols, i))
return df

现在我想看看替换列名称中的特殊字符后是否存在重复的列。正如我们所看到的，new_cols 中有重复的列abc_&test

我想额外退回_ underscore当这个情况发生时。

我的 new_cols 应该如下所示

['abc__&test', 'test*_abc', 'eng_*test', 'abc_&test']

我怎样才能实现我想要的？

首先你需要更改列名称定义如下

reps = [(' ', '_&'), ('(', '*_'), (')', '_*'), ('{', '#_'), ('}', '_#'), (';', '_##'), ('.', '_$'), (',', '_$$'), ('=', '_**')]

这可以通过创建一个新列表

replacedCols = []
for col in cols:
    for x in reps:
        col = col.replace(x[0], x[1])
    replacedCols.append(col)

现在我想看看替换列名称中的特殊字符后是否存在重复的列。发生这种情况时我想返回额外的 _ 下划线。

你可以这样做检查中的每个列名称replacedCols array

checkCols = replacedCols[:]
for index, col in enumerate(replacedCols):
    checkCols[index] = ''
    replacedCols[index]
    if col in checkCols:
        replacedCols[index] = col.replace('_', '__')

这样你就完成了。最后一步是rename列

for index, col in enumerate(cols):
    df = df.withColumnRenamed(col, replacedCols[index])

df.show(truncate=False)

你应该有

+----------+--------+---------+---------+
|abc__&test|test*abc|eng_*test|abc_&test|
+----------+--------+---------+---------+

我希望这有帮助。快乐编码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

替换数据框中的重复列的相关文章

如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
当图例位于轴之外时选择 matplotlib 图例

当我修改 legend picking py 示例时我遇到了一个有趣的怪癖其中图例位于轴之外如下所示 leg ax legend loc upper left fancybox True shadow True leg ax lege
具有相同内容的拆分列表

例如我有以下列表 contents i have two pens prices 5 made in and 我想将它们分开使其具有与以下内容相同的内容 array 0 i have two pens array 1 prices 5 a
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

如何使用 lambda 函数在 mongodb 中的两个集合之间进行多重连接？

我有两个集合 1 user posts 2 user profile 找到以下采集数据供您参考 1 user posts集合 id ObjectId 5d519f861c9d4400005ebd1b userid ObjectId 5d51
Spring Data JPA“jpaMappingContext”错误，IllegalStateException：预期能够解析类型但得到 null

我正在使用 Spring Data JPA 5 0 4 并收到此错误创建名称为 myRepository 的 bean 时出错无法解析设置 bean 属性时引用 bean jpaMappingContext 映射上下文嵌套异常是 o
Angular ChangeDetectionStrategy.OnPush 与发出事件的子组件

我不明白为什么子组件的更改检测在这种情况下运行 import Component ChangeDetectionStrategy from angular core Component selector app root template
Tkinter 窗口显示（没有响应）但代码正在运行

我有一个程序在您单击操作按钮后会运行一个很长的过程当进程正在运行时根窗口会说它没有响应即使我知道该程序正在后台运行该程序将发布给与我一起工作的一些人我想确保他们在看到此程序时不会惊慌失措并关闭窗口我的解决方案是将 root u
如何在 T-SQL 中删除默认值或类似约束？

我知道语法 ALTER TABLE TheTable DROP CONSTRAINT TheDefaultConstraint 但是当我不知道默认约束的名称时如何删除它也就是说它是在CREATE TABLE time 您可以使用此代码自
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
Powershell查找7天内过期的用户

我正在尝试运行一个 powershell 脚本来查询 7 天内过期的帐户我目前有 a 获取日期 AddDays 7 搜索 ADAccount AccountExpiring 时间跨度 7 选择对象 SamAccountName Accou
实体框架 6 - 处理嵌套对象的加载

这是我在实体框架中使用的类层次结构的简化版本 public class Questionnaire public int Id get set public ICollection
在Scala中，“视图”有什么作用？

具体来说我在这里查看问题1 http pavelfatin com scala for project euler http pavelfatin com scala for project euler 列出的代码如下 val r 1 u
DotNetOpenAuth 的来源在哪里？主要的 Sourceforge 链接仅包含示例和 ApplicationBlock

现在 DNOA 可以做到回电报告 http www dotnetopenauth net openid dotnetopenauth e2 80 99s e2 80 9ccall home e2 80 9d reporting 我想调查源头
使用 Jersey 在 REST 服务中上传多个文件

这里有很多建议使用的链接multipart form data以及如何在此处上传文件无法真正找到一个用于通过 CURL 命令上传的多个文件的组合以及接受 REST 服务的文件FormDataMultiPart 目前服务中的代码如下所示 j
解析aspx文件中的控件并将其转换为xml

我需要解析 aspx 文件来自磁盘而不是浏览器上呈现的文件并列出页面上存在的所有服务器端 asp net 控件然后从中创建一个 xml 文件哪一个是最好的方法另外有没有可用的库例如如果我的 aspx 文件包含
在一个响应中返回多个响应数据

在我的科目表中我按学期和月份列出了所有学生的课程以及每个月的分数 id 4 this is the subject id userid 1 name bio semester 3 semester month 5 the month po
MVC 部分视图模型不刷新

我有一个部分视图正在加载到 asp net MVC 3 中的 jQuery 模式中问题是视图未正确刷新以下是事件的顺序 1 主视图有一个表格列出了不同的事件记录表的每一行上都有一个链接来显示事件详细信息 2 当单击此表上的链接时部
name='' 的无效表单控件不可聚焦

在 Google Chrome 中某些客户无法进入我的付款页面当尝试提交表单时我收到此错误 name 的无效表单控件不可聚焦这是来自 JavaScript 控制台我读到问题可能是由于隐藏字段具有必需的属性现在的问题是我们使用 n
将 dotnet core 应用程序安排为具有数据访问层的 3 层

我的典型 NET 4 5X Web 应用程序结构至少有 3 层 Web 项目 NET Web 应用程序域业务逻辑项目类库和数据访问项目类库 Web项目引用了业务层业务层又引用了数据访问层我喜欢这种方法因为我的 Web 项目没
TypeScript 中的语音识别和语音合成

我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition 并且工作正常 namespace CORE export interface IWindow extends Window webkitSpeech
Java 写入 Windows Server 2016 时文件上次修改时间未更新

我在 Windows Server 2016 上有一个 Java 10 应用程序它不断使用 java util logging 写入文件在 Windows 文件资源管理器中上次修改和大小列不会更新按 F5 不会更新详细信息操
当我们手动将tomcat作为Windows服务运行时，如何更改tomcat的java_opts？

我在控制台上手动运行 tomcat 6 作为 Windows 服务我需要在启动之前更改 java opts 我怎么做另外有没有办法可以动态查看日志我知道这是一个旧线程但需要纠正一些假设仅供参考当将 tomcat 作为服务运行时
替换数据框中的重复列

我有一个data frame in pyspark 该数据框有一些带有特殊字符的列 cols df schema names cols abc test test abc eng test abc test reps def col ren

替换数据框中的重复列

替换数据框中的重复列 的相关文章

随机推荐

热门标签

替换数据框中的重复列的相关文章