如何在 PySpark 中转换数据帧列中的 JSON 字符串?

2024-01-02

我有一个 pyspark 数据框,如下所示

+--------------------+---+
|            _c0|_c1|
+--------------------+---+
|{"object":"F...|  0|
|{"object":"F...|  1|
|{"object":"F...|  2|
|{"object":"E...|  3|
|{"object":"F...|  4|
|{"object":"F...|  5|
|{"object":"F...|  6|
|{"object":"S...|  7|
|{"object":"F...|  8|

专栏_c0包含字典形式的字符串。

'{"object":"F","time":"2019-07-18T15:08:16.143Z","values":[0.22124142944812775,0.2147877812385559,0.16713131964206696,0.3102800250053406,0.31872493028640747,0.3366488814353943,0.25324496626853943,0.14537988603115082,0.12684473395347595,0.13864757120609283,0.15222792327404022,0.238663449883461,0.22896413505077362,0.237777978181839]}'

如何将上面的字符串转换为字典形式并获取每个键值对并将其存储到变量中?我不想将其转换为 pandas,因为它很昂贵。


您应该使用 Scala 的 Spark API 的等效项数据集.withColumn http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset and 来自_json http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24标准功能。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 PySpark 中转换数据帧列中的 JSON 字符串? 的相关文章

随机推荐

  • 在 Android 应用程序中使用 smack 进行文件传输。

    这个错误出现在日志中 from kutbi1 360degree Smack to akash 360degree Smack type error id hK1L6 5 gt
  • 具有多个子字段的 Drupal 自定义 CCK 字段

    有没有办法创建一个可以有多个值的复合字段 每个值都有另一组复合值 例如 我们希望最后有这样的结构 Group 1 unlimited number of groups 子字段 每组无限个子字段 子字段 Group 2 子字段 子字段 对于定
  • 如何防止 WordPress 页面被用户删除

    一些 WordPress 插件会创建页面或帖子 插件的正常功能依赖于该页面或帖子的存在 例如 管理电子邮件列表的插件可能依赖于取消订阅页面 用户可能会有意或无意地删除该页面 插件如何防止其页面被删除 首先 当您创建页面时 您可以将其 ID
  • 直接在 Intellij Idea/WebStorm 中运行笑话测试?

    我在用着jest https facebook github io jest 在我的 ReactJS 应用程序中编写测试 到目前为止 要运行我的测试套件 我需要输入 npm test 这是 package npm 中的片段 scripts
  • Python3没有这样的文件或目录

    我正在尝试制作 python3 可执行脚本并从 shell 运行它们 我的系统上安装了 python 3 4 0 所以 我添加了 home spandan python codes 目录到Python路径 因为我计划将我的脚本和模块保留在这
  • AWS CodePipeline 将多个存储库作为单一源进行跟踪

    我正在调查 CodePipeline 是否适用于我们的用例 我们有数百个存储库 全部由 CodeCommit 托管 除了较小的配置之外 所有这些的构建 测试 发布过程都是相同的 我想做的是建立一个管道 用于构建 测试 发布在任何这些存储库中
  • R传单。将点数据分组到单元格中以汇总许多数据点

    早上 下午或晚上 我有以下位置数据 调整自 网格单元内采样点的计数 https stackoverflow com questions 56217221 count of sampling points within a grid cell
  • Eclipse Luna CDT:什么是标头变体?

    我很难让 Eclipse Indexer Codan 识别头文件中的某些数据声明 有一个新的偏好索引所有标头变体 http wiki eclipse org CDT User NewIn83 Preferences for header v
  • 使用“功能分支”与重构兼容吗?

    特征分支 是指每个功能都在自己的分支中开发 只有在经过测试并准备好交付后才合并到主线中 这允许产品所有者选择进入给定发货的功能 并在出现更重要的工作时 保留 部分已编写的功能 例如 客户打电话给 MD 投诉 重构 正在改造代码以改进其设计
  • 将应用程序更新到应用程序商店:审核时间以及商店的评分?

    这太令人沮丧了 我已将我们的应用程序上传到应用程序商店 8 天后获得批准 然后我下载了它 发现加速度计卡住了 所以我去了itunes connect 将发布日期更改为未来的发布日期 取消选中世界上所有的商店 它说 已被开发人员删除 这就是我
  • 透明着色器允许下面的对象显示在上面

    在我的场景中 笑脸 带有 png 图像的四边形 放置在 Y 0 处 点 带有平铺 3X3 的四边形 放置在 Y 0 25 处 我需要用于笑脸的着色器是透明漫反射 因为我使用的是圆形 png 图像 但我在下面使用的点显示在笑脸上方 使用任何其
  • C读取bmp文件

    我正在尝试将 bmp 文件读入我的程序 但遇到了一些问题 读入文件后 如果我告诉它打印 pBmp gt header fileSize 它会显示 16 但如果我在十六进制编辑器中查看它 如果我将该值修改为正确的文件大小 则文件大小部分为 F
  • 通过 PyTumblr 仅返回 20 个帖子

    我在用PyTumblr https github com tumblr pytumblr返回我所有的帖子 但它只返回 20 我找到了 posts 函数的 kwarg 称为 limit 但当我指定 1000 时 它仍然返回 20 知道我做错了
  • 在 C# 中使用 crl(证书吊销列表)验证证书

    我想使用 CRL 属性验证证书 但是 当我在设置 CRL 检查标志后调用证书上的 verify 方法时 会出现以下错误 1 撤销状态未知 gt 吊销功能无法检查证书的吊销情况 2 离线撤销 gt 吊销功能无法检查证书的吊销 因为吊销服务器已
  • 当相应的py被移动时自动删除pyc文件(Mercurial)

    我三个月前就预见到这个问题可能会发生 并被告知要努力避免它 昨天 我被它咬了一口 很厉害 现在它花了我真金白银 我很想解决它 如果我将一个 Python 源文件移动到另一个目录中 我需要记住告诉 Mercurial 它已移动 hg move
  • ArrayList 的 ArrayList 添加和检索元素

    我有一个整数数组列表 mainList 里面有整数数组 subList 我试图将整数数组元素添加到 mainList 并稍后显示它们 将 subList 添加到 mainList 并显示 subList 中的所有元素 2 subLists
  • Windows - Android SDK 管理器未列出任何要安装的平台或软件包

    当我使用可用的 exe 文件安装 Android SDK 并且打开 Android SDK 管理器后 我看不到任何需要安装的附加软件包 列出的只是 Tools 文件夹下的 Android SDK Tools Extras 文件夹下也不显示任
  • 使用子目录时PyQt4 SIGNAL/SLOT问题

    预先感谢您花时间阅读本文 抱歉 它有点冗长 但希望它能完全解释问题 包含演示该问题的剥离代码 我的 PyQt4 信号 插槽有问题 虽然如果我在单个文件中编写 我可以使一切正常工作 但如果我希望使用的某些函数移动到子目录 类 我就无法使一切正
  • 我的 CASE 语句查询有什么问题

    我正在尝试解决 13http www sqlzoo net wiki The JOIN operation http www sqlzoo net wiki The JOIN operation 列出每场比赛以及每支球队的进球数 如图所示
  • 如何在 PySpark 中转换数据帧列中的 JSON 字符串?

    我有一个 pyspark 数据框 如下所示 c0 c1 object F 0 object F 1 object F 2 object E 3 object F 4 object F 5 object F 6 object S 7 obje