Spark.read.csv() 是一个关于转换的操作吗

2023-11-24

Bill在《Spark权威指南》一书中说，阅读是一种转变，而且是一种狭义的转变，

现在，如果我运行下面的 Spark 代码并尝试查看 Spark UI，我会看到创建的作业df = spark.read.csv("path/to/file")

现在根据我的理解，工作是一个被称为的动作。另外，如果我在读取 CSV 时尝试输入一些选项，我会在 Spark UI 中看到另外一项作业，因此，例如，如果我们运行以下代码，则 Spark UI 中会有 2 个作业df = spark.read.option("inferSchema", "true").csv("path/to/file")

所以我的问题是如果spark.read这是一次转变，为什么它会创造就业机会？

根据您提供的参数，转换（尤其是读取操作）可以以两种方式运行。

延迟评估 --> 仅当调用操作时才会执行
热切评估 --> 将触发作业进行一些初步评估

如果是 read.csv()

如果在没有定义模式的情况下调用它并且 inferSchema 被禁用，它会将列确定为字符串类型，并且仅读取第一行来确定名称（如果 heade=True，否则给出默认列名称）和字段数。基本上它执行限制为 1 的收集操作 --> 这就是为什么你可以看到第一个作业

您可以在 Spark UI 中看到下面的 WholeStageCodeGen，如下所示：

您还可以看到如下的物理计划：

现在，如果您指定 inferSchema=True，则将首先触发上面的作业，并且将触发另一个作业，该作业将扫描整个记录以确定模式 --> 这就是为什么您能够在 Spark UI 中看到两个作业

For second job , aggregated metrics by executor in Spark UI will lokk like this (highlighted the number of records read):

现在，如果您通过向 read.csv() 的“schema”参数提供 StructType() 架构对象来显式指定架构，那么您可以看到此处不会触发任何作业。这是因为，我们已经明确提供了列数和类型，并且 Spark 目录将存储该信息，现在不需要扫描文件来获取该信息。这将在调用操作时延迟验证

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

Spark.read.csv() 是一个关于转换的操作吗的相关文章

如何对预测值进行反向移动平均（在 pandas 中，rolling().mean）操作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个像这样的 df import numpy as np import pandas as pd import matplotlib
在python中合并3个dict()

如果多个字典之间有公共字符串是否有逻辑合并多个字典的方法即使这些公共字符串在一个 dict 的值与另一个 dict 的键之间匹配我在 SO 上看到了很多类似的问题但似乎没有一个问题能解决我将较低级别文件中的多个键与较高键值中的
为什么any (True for ... if cond) 比any (cond for ...) 快得多？

检查列表是否包含奇数的两种类似方法 any x 2 for x in a any True for x in a if x 2 计时结果与a 0 10000000 每次尝试五次次数以秒为单位 0 60 0 60 0 60 0 61 0 6
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
为什么 Numpy 创建零数组比用零替换现有数组的值要快得多？

我有一个用于跟踪各种值的数组数组是2500x1700尺寸上所以不是很大在会话结束时我需要将该数组中的所有值重置为零我尝试创建一个新的零数组并将数组中的所有值替换为零并且创建一个全新的数组要快得多代码示例 for in sess
安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
令人困惑的问题>> FileNotFoundError：[Errno 2]没有这样的文件或目录：

这个问题让我很困惑也许问题出在代码上希望你看一下 with open training images labels path r as file lines file readlines 他说该文件不存在 FileNotFoundErr
使用存储的密钥作为环境变量

我有一个秘密密钥存储在 GCP 的秘密管理器中我们的想法是使用该密钥通过云功能获取预算列表现在我可以从代码中访问该密钥但我面临的问题是我需要使用该密钥设置一个环境变量这是我添加密钥的方式如果您的本地目录中有该文件但是还有其他方
Pandas 对 HDFStore 中的大数据进行“分组”查询？

我有大约 700 万行HDFStore有60多个柱子数据超出了我的记忆能力我希望根据 A 列的值将数据聚合到组中 pandas 的文档分割聚合组合 http pandas pydata org pandas docs stable
SQLAlchemy 是否会从同一连接重置 SQLAlchemy 会话之间的数据库会话？

SQLAlchemy 利用连接池这意味着相同的连接可以在不同的 SQLAlchemy 会话之间重复使用但是单个 SQLAlchemy 会话包含在其自身内并在关闭后被丢弃然而连接保持活动状态我想使用 set config 将一
深度学习——一些关于caffe的幼稚问题

我试图了解 caffe 的基础知识特别是与 python 一起使用我的理解是模型定义比如给定的神经网络架构必须包含在 prototxt file 当您使用数据训练模型时 prototxt 您将权重模型参数保存到 caffemode
Django populate() 不可重入

当我尝试在生产环境中加载 Django 应用程序时我不断收到此消息我尝试了所有的 stackoverflow 答案但没有任何解决办法任何其他想法我使用的是 Django 1 5 2 和 Apache Traceback most
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
无法从 celery 信号连接到 celery 任务？

我正在尝试连接task2 from task success signal from celery signals import task success from celery import Celery app Celery app t
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
WTforms 表单未提交但不输出验证错误

我正在尝试使用以下方式上传文件flask uploads工作和遇到一些障碍我会告诉你我的flask查看函数 html 希望有人能指出我缺少的内容基本上发生的情况是我提交了表格但失败了if request method POST and
在 kivy 中嵌套小部件

我正在尝试在 kivy 中制作一个界面我认为即使在完成教程之后我仍然不了解自定义小部件以及如何对它们进行层次结构的一些基本知识我认为我有更多的盒模型 html 思维方式因此小部件嵌套在本机 GUI 中的方式对我来说仍然有点陌生一些
Python tkinter：在组合框中使用“文本变量”似乎没用

使用textvariable在 tkinter 中创建组合框时的属性似乎完全没用有人可以解释一下目的是什么吗我查看了 Tcl 文档它说textvariable用于设置默认值但看起来在 tkinter 中您只需使用 set方法来做到这

随机推荐

手机间隙相机方向

我使用 Phone Gap 版本开发了一个应用程序0 9 3 当我在应用程序中打开相机时它始终以横向模式打开并且在捕获时图像以横向格式返回如何将相机模式更改为纵向 navigator camera getPicture onsucc
命名空间 * 已包含 * 的定义

我在 ASP NET Web 应用程序中创建了单独的文件夹和页面当我构建解决方案时我收到错误 The Namespace MyApp already contains a defintion for VDS 这是VDS Master c
逗号的左操作数没有作用？

我在处理此警告消息时遇到了一些问题它是在模板容器类中实现的 int k 0 l 0 for k index 1 l 0 k lt sizeC l lt sizeC index k l elements k arryCpy l delete
Path.将绝对路径字符串与相对路径字符串组合

我正在尝试使用相对路径加入 Windows 路径Path Combine 然而 Path Combine C blah bling 回报C blah bling代替C bling 有谁知道如何在不编写我自己的相对路径解析器的情况下完成此任务
使用 Numpy 数组作为查找表

我有一个从 csv 文件读取的 Numpy 数据的二维数组每行代表一个数据点最后一列包含一个键该键唯一对应于另一个 Numpy 数组即查找表中的键将第一个表中的行与第二个表中的值相匹配的最佳最 Numpythonic
取消按键事件

我怎样才能返回密钥意思是如果我只想在文本框中只允许整数值我怎样才能不允许用户不输入非整数关于 KeyPress事件我知道还有其他方法例如表达式来匹配字符串值但我不想为文本框分配无效值 if value gt 0 a value
AudioManager的底层流类型有什么区别？

有几种流类型音频管理器它们在低水平上有何不同是否可以使用例如AudioManager STREAM MUSIC 阻止输入麦克风流或者是其他东西最显着的区别之一是音量控制 As the document也就是说我们可以分别为每个流设
命名空间内的方法c#

有没有什么方法可以调用命名空间内的函数而无需在 C 中声明类例如如果我有 2 个完全相同的方法并且应该在我的所有 C 项目中使用有没有什么方法可以将这些函数放入 dll 中然后在顶部说 Using myTwoMethods 并启
为什么我的主机 (softsyshosting.com) 不能支持 BeginRequest 和 EndRequest 事件处理程序？

我听说了 Softsys Hosting 的一些优点因此我决定将我的 ASP NET MVC 解决方案转移给他们但它不会在他们身上运行我能够将问题查明到我的 BeginRequest 事件处理程序如果我有它们我会得到一个错误这是
寻找数据库版本控制的解决方案

问题描述在我们的项目中我们有一个生产数据库和许多开发人员我们想知道如何管理和安装这些更改我们已经有了一些程序但需要花费大量时间有时还会出现错误我们不能丢失数据所以我们不能使用删除表我们只能使用 alter tabl
如何在 PHP 中对数字进行四舍五入？

我需要将所有非整数四舍五入到最接近的整数无论小数点后的数字是否 gt 5 您可以使用ceil value PHP 中的四舍五入函数同样你可以利用floor 用于向下舍入
如何为包含 List> 的类实现 Parcelable？

我有一个工作Parcelable我的 Parcelable 类中的所有字段的实现除了List
从“mysqli->prepare”导出“query”

是否可以导出格式化的查询mysqli prepare and bind param Example
我的应用程序自行重新启动，日志显示 ChimeraModuleLdr：模块配置已更改，由于模块而强制重新启动

我正在测试我的应用程序我看到它自行重启这真的很奇怪我看了又看日志除了这一行之外我找不到任何奇怪的东西ChimeraModuleLdr Module config changed forcing restart due to modu
如何手动重启Jenkins？

这个问题的答案是社区努力编辑现有答案以改进这篇文章目前不接受新的答案或互动我刚刚开始与詹金斯合作遇到了一个问题安装几个插件后它说需要重新启动并进入关闭模式但从未重新启动如何手动重启要手动重新启动 Jenkins 您可以
MSIL - 如何从 MSIL 调用私有方法？

我正在编写一个弱事件工厂代码将任何委托转换为具有相同签名的新委托但在目标上实现 WeakReference 我使用 MSIL 来避免调用 Delegate CreateDelegate 其性能已显示很慢弱引用代表完美工作只要底层方法
SQL - COALESCE 和 ISNULL 之间的区别？ [复制]

这个问题在这里已经有答案了 COALESCE 和 ISNULL 之间有什么实际区别在 SQL 连接中避免 NULL 值时最好使用哪一个 Thanks 比较 COALESCE 和 ISNULL ISNULL 函数和 COALESCE 表达
R中求对称差（交集相反）的函数？

问题我有两个不同长度的字符串向量每个向量都有一组不同的字符串我想找到一个向量中但不在两个向量中的字符串那就是对称差异 Analysis 我看了一下函数setdiff 但其输出取决于向量的考虑顺序我找到了自定义函数外门但该函数要求
从四元数到欧拉角以及反向转换不正确

我正在将角度轴表示转换为欧拉角我决定检查并确保从转换中获得的欧拉角将返回到原始轴角我打印出这些值但它们不匹配我读过了http forum onlineconversion com showthread php t 5408 and
Spark.read.csv() 是一个关于转换的操作吗

Bill在 Spark权威指南一书中说阅读是一种转变而且是一种狭义的转变现在如果我运行下面的 Spark 代码并尝试查看 Spark UI 我会看到创建的作业df spark read csv path to file 现在根据我

Spark.read.csv() 是一个关于转换的操作吗

Spark.read.csv() 是一个关于转换的操作吗 的相关文章

随机推荐

热门标签

Spark.read.csv() 是一个关于转换的操作吗的相关文章