选择 PySpark 数据框中的列

2024-06-25

我正在寻找一种在 PySpark 中选择数据帧列的方法。对于第一行，我知道我可以使用df.first()，但不确定列是否存在没有列名。

我有 5 列，想循环浏览每一列。

+--+---+---+---+---+---+---+
|_1| _2| _3| _4| _5| _6| _7|
+--+---+---+---+---+---+---+
|1 |0.0|0.0|0.0|1.0|0.0|0.0|
|2 |1.0|0.0|0.0|0.0|0.0|0.0|
|3 |0.0|0.0|1.0|0.0|0.0|0.0|

尝试这样的事情：

df.select([c for c in df.columns if c in ['_2','_4','_5']]).show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

选择 PySpark 数据框中的列的相关文章

Django：NoReverseMatch at /'myapp'不是注册的命名空间

我在模板渲染期间遇到此错误我想做的是允许用户上传 csv 然后将数据处理到模型中第 109 行出错 myapp 不是已注册的命名空间这是我的第 109 行代码
查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
如何将 typeshed 与 mypy 一起使用？

我克隆了typeshed https github com python typeshed但我不知道如何告诉 mypy 使用它包含的类型提示我在 mypy help 中没有看到任何选项 mypy 存储库确实包含对 typeshed 存储库
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
在 Python 中解压存档时出现错误

我使用 Python 下载 bz2 文件然后我想使用以下方法解压存档 def unpack file dir file cwd os getcwd os chdir dir print Unpacking file s file cmd
使用 pytherejs 嵌入小部件：错误的视角和相机观察

我在用pythreejs可视化一些 3D 模型在 Jupyter 笔记本上可视化模型时一切都按预期进行但是当尝试将小部件嵌入 HTML 文档时我面临两个问题看起来相机在加载时正在查看 0 0 0 而不是预期的那样一旦您与小部件交
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
如何为 PyYAML 编写代表程序？

我想要一个自定义函数来序列化任意 python 对象就像 json dump 函数有一个名为 default 的可选参数如果对象不是 json 可序列化的它应该是 json 转储器将调用的函数我只是想从 json 包中执行相当于此操
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
dask分布式内存错误

在分布式作业上运行 Dask 时我在调度程序上遇到以下错误 distributed core ERROR Traceback most recent call last File usr local lib python3 4 dist
识别文本中的多个类别和相关情感

如果您有一个文本语料库如何识别所有类别来自预定义类别列表以及与之相关的情绪正面负面写作我将在 Python 中执行此操作但现阶段我不一定要寻找特定于语言的解决方案让我们用一个例子来看看这个问题试图澄清我的问题如果我有一整
python请求ssl握手失败

每次我尝试这样做 requests get https url 我收到这条消息 import requests gt gt gt requests get https reviews gethuman com companies Trace
numpy.polyval() 的反函数

我想知道 np polyval 是否有一个方便的反函数我在其中给出 y 值并求解 x 我知道我可以做到这一点的一种方法是 import numpy as np Set up the question p np array 1 1 10 y
Python httplib 和 POST

我目前正在使用别人编写的一段代码它用httplib向服务器发出请求它以正确的格式提供所有数据例如消息正文标头值等问题是每次尝试发送 POST 请求时数据都在那里我可以在客户端看到它但没有任何内容到达服务器我已经阅读了库规
Python for 循环前瞻

我有一个 python for 循环其中我需要向前查看一项以查看在处理之前是否需要执行某项操作 for line in file if the start of the next line 0 perform pre processing
无法将作业提交到 Spark 集群（集群模式）

火花版本1 3 0 以集群模式向spark集群提交作业时出错 spark submit class org apache spark examples streaming JavaDirectKafkaWordCount deploy mo
pandas groupby 中两个系列的最大值和最小值

是否可以从 groupby 中的两个系列中获取最小值和最大值例如下面的情况分组时c 我怎样才能得到最小值和最大值a and b同时 df pd DataFrame a 10 20 3 40 55 b 5 14 8 50 60 c x x
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count

随机推荐

MonoTouch 错误：升级到 iOS 5.1 后“未安装 Apple iPhone SDK”

我已将 iOS 5 0 1 升级到 5 1 并且使用 MonoTouch 5 2 5 和 MonoDevelop 2 8 6 5 当我在 MonoDevelop 中创建示例应用程序时它显示错误 Apple iphone sdk 未安装如
如何显示带有排序下拉列表的页面？

我有一个选择列表
为什么在相同大小的类型之间进行强制转换时，reinterpret_cast 不强制使用 copy_n？

根据cppreference com http en cppreference com w cpp language reinterpret cast reinterpret cast 通过重新解释底层位模式在类型之间进行转换但是等等这
从用户访问令牌获取应用程序 ID（或验证令牌的源应用程序）

我找到了这个question http facebook stackoverflow com questions 6816568 extract app id and user id from facebook access token 其
快速计算幂（例如 2^11）[重复]

这个问题在这里已经有答案了可能的重复实现基于整数的幂函数 pow int int 的最有效方法 https stackoverflow com questions 101439 the most efficient way to imp
Flask 上下文处理器函数

按照 Flask 页面上的最小示例我尝试构建一个上下文处理器上下文处理器 py def inflect this def inflectorize number word return format number inflectoriz
在android上使用正则表达式验证字符串

我希望我的字符串不包含 and 我用这个代码 private static boolean IsMatch String s String pattern try Pattern patt Pattern compile pattern M
如何在 vite svelte 中加载 env 进行生产

所以我是 Vite 的新手我将它用于我的 svelte 应用程序我真的不明白这部分文档在生产过程中这些环境变量会被静态替换因此有必要始终使用完整的静态字符串来引用它们例如像 import meta env key 这样的动态
OpenGL 中的 VBO 到底是什么？

我正在尝试了解 OpenGL 背后的理论目前正在研究 VBO 到目前为止我的理解是当我们声明一系列顶点时比如说形成一个三角形基元的 3 个顶点我们基本上不会将它们存储在任何地方它们只是在代码中声明但是如果我们想将它们存储在某个
警报 Json 对象

我有以下 json 对象我需要通过 javascript 提醒它 data empmenuid 1 empid null deptid 66 aliasid 66 firstname 66 lastname 66 sin 66 statu
期货与承诺

我对未来和承诺之间的区别感到困惑显然他们有不同的方法和内容但实际用例是什么 Is it 当我管理一些异步任务时我使用 future 来获取未来的值当我是异步任务时我使用 Promise 作为返回类型以允许用户从我的 Pro
为 Couch Base Server 1.8 和 2.0 构建 Erlang 客户端

我们已经用过沙发基地服务器 http www couchbase com 在我们的产品中它是一个内联网应用程序其前端是纯JavaScript 然而我们使用Erlang OTP http erlang org对于业务逻辑身份验证 Mne
在循环中使用迭代器删除 unordered_set 中的元素

请考虑以下代码 Class MyClass是一个自定义类 class MyClass public MyClass int v Val v int Val 那么下面的代码会导致Debug Assertion Failed在调用后的循环中it
我们如何在jquery中添加css+动画？

这是我正在尝试做的事情的一小段 why red a hover function this animate webkit transform scale 1 1 slow function this animate webkit trans
如何通过javascript关闭电子应用程序？

我正在通过电子运行一个快速应用程序下面是main js const electron require electron app electron app BrowserWindow electron BrowserWindow let m
在 React Native 中迭代 JSON

我在本机反应中遇到了一个问题我已经解析了一个大型 JSON 对象并且需要迭代嵌套在其中的数组我需要做的就是在每个项目对象中打印 day 0 的三个值我的代码 import React Component PropTypes from
.htaccess 301 将所有 https 重定向到 http（一页除外）

这是我当前在 htaccess 文件中的代码 Options FollowSymLinks RewriteEngine on RewriteBase RewriteCond HTTP HOST example com NC RewriteR
更改 xml 选择器中可绘制对象的色调

我有一个按钮其背景在 xml 中定义我想根据按钮当前的状态即按下聚焦正常对按钮进行着色下面是我的 xml 文件还有我的colored tint dark and colored tint都是我试图在从资源文件夹中调用的可绘
如何在 Android 中创建弹出视图，例如 Facebook 评论？

我想知道是否有人知道如何创建类似 Facebook 的弹出窗口视图例如在 Facebook Android 应用程序中用于评论这就是我的意思除了可以拖动以关闭它的手柄之外它是本机 Android UI 控件还是 Facebook 自
选择 PySpark 数据框中的列

我正在寻找一种在 PySpark 中选择数据帧列的方法对于第一行我知道我可以使用df first 但不确定列是否存在没有列名我有 5 列想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0

选择 PySpark 数据框中的列

选择 PySpark 数据框中的列 的相关文章

随机推荐

热门标签

选择 PySpark 数据框中的列的相关文章