在pyspark中读取Excel（.xlsx）文件

2023-11-22

我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。

我写了下面的代码：

from pyspark.shell import sqlContext
from pyspark.sql import SparkSession

spark = SparkSession.builder \
      .master('local') \
      .appName('Planning') \
      .enableHiveSupport() \
      .config('spark.executor.memory', '2g') \
      .getOrCreate()

df = sqlContext.read("C:\P_DATA\tyco_93_A.xlsx").show()

Error:

类型错误：“DataFrameReader”对象不可调用

您可以使用 pandas 读取 .xlsx 文件，然后将其转换为 Spark 数据帧。

from pyspark.sql import SparkSession
import pandas

spark = SparkSession.builder.appName("Test").getOrCreate()

pdf = pandas.read_excel('excelfile.xlsx', sheet_name='sheetname', inferSchema='true')
df = spark.createDataFrame(pdf)

df.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

sparkexcel

在pyspark中读取Excel（.xlsx）文件的相关文章

将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio

随机推荐

如何将任意文件的依赖项添加到 T4 模板？

我有一个 T4 模板可以从 xml 文件生成类如何在 xml 文件和模板文件之间添加依赖关系以便在修改 xml 文件时自动重新运行模板而无需从上下文菜单中选择运行自定义工具我不相信 T4 支持基于外部依赖项的自动模板转换我同意
Linq 2 SQL - 通用 where 子句

有没有办法做到这一点 public T GetItemById int id Table
使用 Youtube Api v3 和 oauth2 将视频上传到我的 Youtube 频道，无需用户身份验证

我的任务目标是创建一个控制台脚本它将我自己网站上最近上传的视频插入到我自己的 Youtube 频道中我想使用服务器到服务器的身份验证但 YoutubeApi 现在不支持这种身份验证方式所以我的问题是如何在没有用户帮助的情况下使用
Xcode 6 / Beta 4：不支持将桥接标头与框架目标一起使用

我刚刚升级到 Xcode 6 Beta 4 并拥有一个为 Beta 2 中的实时视图创建的框架由于另一个 swiftbug 我需要使用一些 Obj C 代码但升级时我收到以下错误错误不支持将桥接标头与框架目标一起使用我没有在发行
连接具有相同 id 的 pandas DataFrame 行

假设我有一个 pandas DataFrame 例如 A B id 0 1 1 0 1 2 1 0 2 3 2 1 3 0 2 1 假设我想合并具有相同 id 的行以便将行中的其他元素放在一个列表中这样上面的数据框将变为 A B id
AngularJS 在两个选择列表之间移动项目

我正在尝试使用下面的代码在两个选择列表之间移动项目但是项目没有从 availableClients 列表移动到 selectedClients 列表所以有人可以检查下面的代码并让我知道我在这里缺少什么吗谢谢 div div div d
在同一服务器上运行多个 Django Celery 网站

我使用 apache2 虚拟服务器在同一服务器上运行多个 Django apache wsgi 网站我想使用 celery 但是如果我为多个网站启动 celeryd 所有网站都将使用我启动的最后一个 celeryd 实例的配置日志数据
为什么引发 NSException 不会导致我的应用程序崩溃？

问题我正在编写一个 Cocoa 应用程序我想引发异常从而导致应用程序崩溃我的应用程序委托中有以下几行 NSException raise NSInternalInconsistencyException format This sh
Google 翻译 API v2 - (403) 访问未配置

我在通过 Google 控制台 API 使用 Google 翻译时遇到问题当我从本地计算机运行测试时它运行得很好但是当我尝试在远程测试虚拟服务器上运行它时它返回上面的 403 我在控制台 API 访问中通过服务器密钥使用简单 API
prolog，在元组列表中查找列表元素

我正在尝试用 Prolog 解决一个新程序但我被卡住了不知道如何继续我必须做一个有 3 个参数的谓词第一个是元素列表第二个是元素列表是元组列表如果元组的第一个元素与第一个参数列表的元素匹配则第三个必须是返回的包含元组的第二个元
__scrt_common_main_seh 是什么/在哪里？

我的程序中的第三方库正在尝试调用 scrt common main seh通过微软库msvcrt lib 但由某些未知库定义因此会出现链接器错误我不知道这个函数应该做什么或者它是在哪里定义的我在网上查找了这个函数但除了链接器错误的一
突出显示 ggplot2 中感兴趣的区域

在普通绘图中可以使用polygon调用panel first论证plot突出显示背景区域是否可以做同样的事情ggplot2 可以在保留网格线的同时完成吗 eg plot hp and wt for mtcars data highlig
JavaFX：循环之间的旋转动画延迟

我使用以下代码为基于 RotatedTranstion 的 ImageView 创建了动画 ImageView icon ImageCache getImage refresh png RotateTransition rotateTran
订阅 Angular 2 HTML 元素中的可观察对象

我有一个可观察的生产Users有一个isLoading属性这样就可以产生预期的结果 user async isLoading 我希望能够使用这个isLoadingHTML 属性中的属性如下所示
比 <__main__.MyClass 实例位于 0x1624710> 更漂亮的东西

这是我的课程尽可能简单 class MyClass def init self id self id id def str self return MyClass d self id 当我打印 MyClass 的对象时我得到这个漂亮的字
如何使用 javascript 或 jquery 从字符串中提取 html 标签的内容？ [复制]

这个问题在这里已经有答案了也许这是非常基本的但我很困惑我有一个简单的 html 页面其中包含许多部分 div 我有一个包含 javascript 中的 html 标签的字符串代码如下
如何在Windows中编写Unix行尾字符？

如何使用 Python 在 Windows 上写入文件并使用 Unix 行尾字符例如做时 f open file txt w f write hello n f close Python自动替换 n with r n 现代方式使用 n
Celery 任务可以在重启后继续存在吗？

我需要构建一个处理两种类型任务的系统一种类型可以创建更多其自身或另一种类型的任务工作人员数量很少 2 3 并且只有一名主机最重要的要求是系统应该优雅地处理重新启动即重新启动时正在进行的任务应该从头开始并且工作人员应该选择重新启动
在 XAML 中使用矩形形状作为剪辑

有没有办法可以使用普通的矩形形状作为 XAML 中另一个对象的剪辑的一部分看起来我应该能够做到但解决方案却让我困惑
在pyspark中读取Excel（.xlsx）文件

我正在尝试从 PySpark 中的本地路径读取 xlsx 文件我写了下面的代码 from pyspark shell import sqlContext from pyspark sql import SparkSession spark

在pyspark中读取Excel（.xlsx）文件

在pyspark中读取Excel（.xlsx）文件 的相关文章

随机推荐

热门标签

在pyspark中读取Excel（.xlsx）文件的相关文章