手动创建 pyspark 数据框

2024-01-04

我正在尝试根据某些数据手动创建 pyspark 数据框：

row_in = [(1566429545575348), (40.353977), (-111.701859)]
rdd = sc.parallelize(row_in)
schema = StructType(
    [
        StructField("time_epocs", DecimalType(), True),
        StructField("lat", DecimalType(), True),
        StructField("long", DecimalType(), True),
    ]
)
df_in_test = spark.createDataFrame(rdd, schema)

当我尝试显示数据框时，这会出现错误，因此我不确定如何执行此操作。

但是，那Spark文档 https://spark.apache.org/docs/2.4.7/api/python/pyspark.sql.html#pyspark.sql.SQLContext.createDataFrame对我来说似乎有点复杂，当我尝试遵循这些说明时，我遇到了类似的错误。

有谁知道如何做到这一点？

简单的数据框创建：

df = spark.createDataFrame(
    [
        (1, "foo"),  # create your data here, be consistent in the types.
        (2, "bar"),
    ],
    ["id", "label"]  # add your column names here
)

df.printSchema()
root
 |-- id: long (nullable = true)
 |-- label: string (nullable = true)

df.show()
+---+-----+                                                                     
| id|label|
+---+-----+
|  1|  foo|
|  2|  bar|
+---+-----+

根据官方文档 https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SparkSession.createDataFrame:

当模式是列名列表时，将从数据推断每列的类型。（上面的例子↑）
当架构为pyspark.sql.types.DataType或数据类型字符串，它必须与真实数据匹配。（示例如下↓）

# Example with a datatype string
df = spark.createDataFrame(
    [
        (1, "foo"),  # Add your data here
        (2, "bar"),
    ],  
    "id int, label string",  # add column names and types here
)

# Example with pyspark.sql.types
from pyspark.sql import types as T
df = spark.createDataFrame(
    [
        (1, "foo"),  # Add your data here
        (2, "bar"),
    ],
    T.StructType(  # Define the whole schema within a StructType
        [
            T.StructField("id", T.IntegerType(), True),
            T.StructField("label", T.StringType(), True),
        ]
    ),
)


df.printSchema()
root
 |-- id: integer (nullable = true)  # type is forced to Int
 |-- label: string (nullable = true)

此外，您可以从 Pandas 数据框创建数据框，架构将从 Pandas 数据框的类型推断：

import pandas as pd
import numpy as np


pdf = pd.DataFrame(
    {
        "col1": [np.random.randint(10) for x in range(10)],
        "col2": [np.random.randint(100) for x in range(10)],
    }
)


df = spark.createDataFrame(pdf)

df.show()
+----+----+
|col1|col2|
+----+----+
|   6|   4|
|   1|  39|
|   7|   4|
|   7|  95|
|   6|   3|
|   7|  28|
|   2|  26|
|   0|   4|
|   4|  32|
+----+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

手动创建 pyspark 数据框的相关文章

为什么在 python 控制台中对 SparkSession.builder.getOrCreate() 的调用被视为命令行 Spark-submit？

代替python console我正在尝试创建一个Spark Session 我没有使用pyspark以隔离依赖关系为什么是spark submit命令行提示并生成错误 NOTE SPARK PREPEND CLASSES is set
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF

随机推荐

Android：带有 FragmentTabHost 的底部选项卡

我试图将 FragmentTabHost 放在屏幕底部不久前我能够使用常规 TabHost 做到这一点如下这个线程 https stackoverflow com questions 2395661 android tabs at t
+1 和 -1 之间的差异

gt t 1 1 Num a gt a gt a gt t 1 1 Num a gt a 为什么第二个不是函数我必须写吗 1 或者还有更好的方法这是因为 1 然而被解释为消极的 1 被解释为柯里化函数 x gt 1 x 在哈斯克尔中
如何将 Visual Studio 附加到尚未启动的进程？

我的 NET 程序由于某些原因无法从 Visual Studio 运行从 Excel 2010 模板项目创建的 Excel 文件我需要调试启动事件如果我想调试程序初始化后发生的事件那么没有问题我从资源管理器运行该程序将进程附加到
如何在Android-ndk中将变量内容输出到“LogCat”窗口

我在 Eclipse ADT 环境中使用 Android sdk ndk 在Android sdk Java开发中我可以使用 Log i Log w 语句将消息和变量内容输出到 LogCat 窗口然而在Android ndk C C
创建按字母顺序索引的列表 (ColdFusion + Microsoft SQL Server)

我目前正在努力寻找知道如何做到这一点的人我尝试了几种不同的方法最终得到了一半的结果但并不完全是我想要的基本上我正在尝试创建一个显示所有乐队 A Z 的列表但乐队名称是从数据库中调用的所以我必须在嵌套列表中使用 band name
如何验证“Cache-Control”、“无缓存、无存储、必须重新验证”

我正在学习缓存以及如何管理它当我打开网站页面时我可以看到图像 css 文件 js 文件等静态内容存储在临时文件夹中但现在当我在响应标头中添加这些属性时我看不到缓存行为的任何变化所有内容都像以前一样被存储即使我在 js 文件中进
Thymeleaf：我可以在表达式中使用消息吗

我在 Spring Boot 应用程序中使用 Thymeleaf 3 目前我想在 EL 表达式 Spring EL 中使用消息表达式第一个用例修剪消息 data title message key trim 第二个用例有条件地创建一
如何停止工作表中的程序执行？

如何在 Scala 工作表中停止程序执行如果代码正在执行并且不返回无限循环那么似乎不可能在不重新启动 Eclipse 的情况下停止程序执行 From https github com scala ide scala worksheet
如何在 Linux 中终止单个 TCP 连接？

我有一个进程在不同的端口上打开到多个浏览器的多个 tcp 连接使用 netsat 的输出是这样的 tcp 0 0 server1 something myprog client1 something 49987 ESTABLISHED t
jQuery DataTables - 启动缓慢，“正常”html 表显示在开头

我正在使用 jQuery DataTable 插件但我担心脚本加载似乎需要一些时间所以我的网页总是首先显示普通的 html 表格在所有脚本完成后该表格将变成 DataTable 我觉得这种样子不太能接受所以希望能在这里得到一些建议
在 IOS 上启用语音时，移动菜单无法打开

我正在使用 Safari 浏览器在 ios 中打开我的网站移动菜单工作正常当我点击菜单图标三行图标时它会打开但是当我启用语音然后进入浏览器并点击该菜单图标时移动菜单未打开这是CSS问题还是我必须添加一些aria属性有人能帮
将全局变量传递给类和函数的替代方法

我是 python 新手我一直在使用global将变量传递给其他函数被认为是新手也是一种不好的做法我想不再使用全局变量但我不知道该怎么做现在我有一个在 wxPython 中创建的 UI 作为其自己的单独类并且我有另一个从 in
当我序列化对象时出现 StackOverflowError

我想用这个方法序列化一个对象 public void serializ CRDT m throws IOException ByteArrayOutputStream byteOutput new ByteArrayOutputStream
std::vector 在不知道元素类型的情况下插入

假设我有一个接受各种向量的模板化函数但由于各种原因我不能在模板参数中提及这一点这就是我想要做的在特定位置插入一个新的默认构造元素而不知道其类型 template
使用 sm.OLS 时需要添加常量吗？

我正在对两组数据 Y 和 X 执行 OLS 我使用 statsmodel api OLS 然而无论我之前是否向 X 添加常量我发现一些非常不同的结果这是代码 import statsmodels api as sm import nu
RestructedText 文件中可能存在文本的私有部分吗？

我正在将公司的一些文档从 md 转换为 rst 以便在 ReadTheDocs com 中显示其中一些文档中的内部部分不适合我们的客户使用有没有办法标记这些部分以便 Sphinx 不会将其呈现为 HTML Use the ifconf
单击按钮时发出警报并将用户移动到打开的新选项卡

我创建了一个带有链接的按钮该链接在新选项卡中打开我还使用了 javascript 来发出警报目前这段代码运行完美但是在警报中单击确定后用户仍停留在同一页面上但我想将用户移至新打开的选项卡是否可以我的代码是
strtok调用时出现问题

我有一个像这样使用 strtok 的函数 void f1 char name char tmp tmp strtok names while tmp tmp strtok NULL 我有一个电话 f1 abc def 问题是在第一次调用中
无法实例化名为 ADBannerView 的类

我试图在我的应用程序底部插入 iad 横幅但在遵循教程后不断出现错误代码如下 interface DMKHomeViewController UIViewcontroller
手动创建 pyspark 数据框

我正在尝试根据某些数据手动创建 pyspark 数据框 row in 1566429545575348 40 353977 111 701859 rdd sc parallelize row in schema StructType Str

手动创建 pyspark 数据框

手动创建 pyspark 数据框 的相关文章

随机推荐

热门标签

手动创建 pyspark 数据框的相关文章