如何将 xlsx 或 xls 文件读取为 Spark 数据帧

2024-01-12

谁能告诉我在不转换 xlsx 或 xls 文件的情况下我们如何将它们读取为 Spark 数据框

我已经尝试使用 pandas 进行读取，然后尝试转换为 Spark 数据帧，但出现错误，错误是

Error:

Cannot merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>

Code:

import pandas
import os
df = pandas.read_excel('/dbfs/FileStore/tables/BSE.xlsx', sheet_name='Sheet1',inferSchema='')
sdf = spark.createDataFrame(df)

我尝试根据 @matkurek 和 @Peter Pan 的答案在 2021 年 4 月给出一个总体更新版本。

SPARK

您应该在 databricks 集群上安装以下 2 个库：

集群 -> 选择你的集群 -> 库 -> 安装新的 -> Maven -> 在坐标: com.crealytics:spark-excel_2.12:0.13.5
集群 -> 选择你的集群 -> 库 -> 安装新的 -> PyPI -> inPackage: xlrd

然后，您将能够按如下方式读取 Excel：

sparkDF = spark.read.format("com.crealytics.spark.excel") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .option("dataAddress", "'NameOfYourExcelSheet'!A1") \
    .load(filePath)

PANDAS

您应该在 databricks 集群上安装以下 2 个库：

集群 -> 选择你的集群 -> 库 -> 安装新的 -> PyPI -> inPackage: xlrd
集群 -> 选择你的集群 -> 库 -> 安装新的 -> PyPI -> inPackage: openpyxl

然后，您将能够按如下方式读取 Excel：

import pandas
pandasDF = pd.read_excel(io = filePath, engine='openpyxl', sheet_name = 'NameOfYourExcelSheet')

请注意，您将有两个不同的对象，在第一个场景中是 Spark Dataframe，在第二个场景中是 Pandas Dataframe。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

Azure

Databricks

如何将 xlsx 或 xls 文件读取为 Spark 数据帧的相关文章

Django Rest Framework 完整性错误捕获

在 Django Rest Framework 中我使用了序列化器视图集和路由器方法每当我在 django Rest 框架的 API 视图中发布故意错误时它都会抛出完整性错误有没有办法尝试捕获错误例如如果数据中没有错误则继续保
如何识别嵌套 json 文件并将其分解为数据框的列？

我再次重新组织我的问题以便更清楚我的数据看起来像这样 Research xmlns http www xml org 2013 2 XML language eng createDateTime 2022 03 25T10 12 39Z
numpy.nan_to_num - 'nan' 关键字无法识别

当您尝试使用以下代码将 nan 值替换为自定义数值时 np nan to num exp allowance nan 9999 99 它产生以下错误 typeerror nan to num got an unexpected keywor
将 async-for 与 if 条件结合起来以中断中间等待的正确方法是什么？

如果我有一个协程正在消耗异步生成器中的项目那么从外部条件终止该循环的最佳方法是什么考虑到这一点 while not self shutdown event is set async with self external lib cl
Azure AD 应用程序未出现在 Azure Web 应用程序的现有 AD 应用程序列表中

我刚刚进行了一些演练其中创建了一个 Azure AD 应用程序将其用作我的 Azure Web 应用程序中的授权身份验证现在当我为我的 Azure 网站应用服务选择现有 AD 应用程序时它不会出现在我的 Azure AD 应
将 Azure Blob 与 Azure 网站结合使用

我正在制作一个MVC Windows Azure涉及用户上传图像的网站我想将图像存储在 blob 中我搜索了教程但大多数都涉及Webapps而不是 MVC 网站我发现的唯一有用的教程是 http www codeproject co
使用 python3 查找表情符号的宽度

我尝试使用 python 中的模式打印字母 A def printA length height symbol a for i in range length for i in range height for i in range hei
部署到 azure 然后收到 403 - 访问禁止

我正在尝试部署到 Azure Silverlight 应用程序我已迁移数据库更新连接字符串并将应用程序发布到 Azure 但是当我单击服务 URL 时我得到以下信息 403 禁止访问被拒绝您无权使用您提供的凭据查看此目录或页面知
使用unicode在hdf5中存储字符串数据集

我试图从包含特殊字符的文件中存储变量字符串表达式例如 and 这是我的代码 import h5py as h5 file h5 File deleteme hdf5 a dt h5 special dtype vlen str dset
如何获取 sklearn.metrics.classification_report 的输出作为字典？

我一直在尝试以字典的形式获得分类报告所以根据 scikit learn 0 20 文档我这样做 from sklearn import metrics rep metrics classification report y true y
Node js 应用程序错误未响应端口 8080 上的 HTTP ping，站点启动失败。在 Azure 应用程序服务 linux 上（不是 docker）

Nodejs 应用程序在本地运行如果直接从 Visual Studio 部署到 Azure 应用程序服务 Linux 也可以在应用程序服务上运行但在使用 azure devops 部署时不起作用使用 Visual Studio 的工件
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
有没有办法在每个特定的时间间隔运行 python Flask 函数并在本地服务器上显示输出？

我正在使用 Flask 工作 python 程序我想从字典中提取键该密钥为文本格式但我想在每个特定的时间间隔后重复上述整个过程并每次在本地浏览器上显示此输出我已经使用flask apscheduler尝试过这个程序只运行一次并显
如何在 Azure 管道上运行 Karate API 测试

空手道和 Azure 新手刚刚使用空手道创建了一些 API 测试而且很简单想要进一步添加 Azure 管道找到了一些仅指向添加 Microsoft 的 pom xml 和 maven 的链接还发现了 Jekins 集成但没有适用
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
在Spyder(Python 3.6)中导入cv2时出现导入错误

我已经在Windows操作系统中安装了opencv 3 0 0 我已运行该应用程序并已成功将其安装在C 驱动器并还复制了cv2 pyd文件输入C Python27 Lib site packages正如我在几个教程视频中看到的那样在我的
使用 pyppeteer 与 asyncio 关联来抓取内容

我用 python 结合编写了一个脚本pyppeteer随着asyncio从其登陆页面抓取不同帖子的链接并最终通过跟踪通向其内页的 url 来获取每个帖子的标题我这里解析的内容不是动态的但是我利用了pyppeteer and asy
无法连接到 Azure Ubuntu VM - 公钥被拒绝

我们在 Azure 上使用 Ubuntu VM 一段时间了很少遇到任何问题然而其中一台虚拟机最近出现了问题出乎意料的是 Ubuntu VM 开始拒绝公钥 ssh i azure key email protected cdn cgi
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d

随机推荐

Autofac、Owin 和内存泄漏。 autofac 是否与 owin 一起泄漏？

最近我意识到我的基于 Owin 和 Autofac 的 Web API 应用程序存在泄漏泄漏不是永久性的但内存保留的时间比每个请求的时间长这是交易 1 默认情况下 Web API 使用缓冲响应并且运行时保持重叠数据即使在返回响应后
如何设计 RESTful API 来检查用户的凭据？

我正在为移动应用程序设计一个 API 我希望保持它的 RESTful API使用Basic HTTP Auth进行授权但是当用户第一次打开应用程序时他需要先登录所以我需要设计一个API来检查用户的凭据它将接受一对用户名和密码相应
如何检查 Windows 中安装的 Ruby 开发工具包的版本？

Ruby 开发套件是安装在我的 Windows 7 中如何检查它是 32 位还是 64 位以及版本号我不是问如何检查 ruby 版本ruby v 关于 32 位与 64 位部分 ruby e puts 1 size 32 位版本将产生4
从 Python 学习 Ruby；异同

灵感来自从 Ruby 学习 Python 异同 https stackoverflow com questions 4769004 learning python from ruby differences and similarities
想要将java值传递到jsp中的javascript函数中

我正在尝试通过在基于 struts 的项目中从 JSP 中的请求参数获取字符串值来将字符串值传递给 JavaScript 函数这是代码然后将其作为参数传递到函数中
在 PowerShell 中，如何将 DateTime 转换为 UNIX 时间？

在PowerShell中如何将DateTime字符串转换为秒数总和 PS H gt New TimeSpan Start date1 End date2 TotalSeconds 1289923177 87462 New TimeSpan
在 XAML 中使用图像向按钮添加鼠标悬停效果

我有一个带有图像的按钮如下所示
从通过 LINQ 连接的两个 DataTable 创建组合 DataTable。 C＃

我有以下代码填充dataTable1 and dataTable2通过两个简单的 SQL 查询 dataTableSqlJoined由相同的表填充但连接在一起我正在尝试编写一个 LINQ 查询来创建dataTableLinqJoined就
如何使用 Python 启动 Window 快捷方式

我想启动一个名为blender ink位于 D games blender ink 我尝试过使用 os startfile D games blender ink 但失败了它只启动exe文件蟒蛇os startfile https do
如何在 Windows 上进行非阻塞 IPC 读取？

我有一个 Perl 脚本它使用外部工具 cleartool 来收集有关文件列表的信息我想使用 IPC 来避免为每个文件生成一个新进程 use IPC Open2 my cin cout my child open2 cout cin c
如何在 Ortools 中定义约束以设置不同值的限制

我试图定义一个约束来限制求解器生成的唯一值的数量它可以生成尽可能多的重复项来解决问题但唯一值有限制为每个值创建一个布尔变量selected value这是正确的当且仅当至少为它分配了一个值为此您将需要 2 组约束从左到右 se
PHP 替换字符串

string http site com category 1 news 2134 1 is dynamic 我该如何改变1到我想要的任何号码无法调用字符串的一部分它只是一个类似文本的变量可以使用一些真正的正则表达式来完成 strin
需要避免子进程死锁而不进行通信

我需要执行一个命令该命令会产生大量输出并且需要花费大量时间来执行 gt 30 分钟我正在考虑使用 subprocess Popen 来做到这一点我需要捕获命令的输出因此我将 PIPE 传递给 stdout 和 stderr 使用
MAX 使用 gcc 的 typeof 扩展

我已经用 C 编程有一段时间了所以我决定学习一些高级 C 我听说过 gcc 编译器扩展下面我看到了 MAX 的代码到目前为止我已经实现如下 define MAX x y x gt y x y 这是我找到的新定义不幸的是我什至不明白下
从 Java 调用 python

我正在为公司的内部工具包构建前端一半的工具是用 python 编写的另一半是用其他几种脚本语言编写的所以我正在使用 swing 在 java 中构建前端到目前为止我可以通过以下代码调用 python 脚本 public class
Android 推送通知在应用程序关闭时不起作用

我在用着OkSse https github com heremaps oksse订阅我的服务器发送事件每当服务器发送新消息时无论应用程序是否处于运行状态都应该出现通知前景最小化或完全关闭通知按预期工作最小化或在前台但当全封闭这
如何使用 .htaccess 拒绝除一个目录名之外的所有目录名？

我有这个 htaccess 文件我可以在其中阻止用户从浏览器物理访问文件它们只能通过系统加载 Options Indexes Order deny allow deny from all 但我有一个问题有时我通过 AJAX 加载文件
使用 Activerecord 对多列求和

我是 Activerecord 的新手我想对模型学生的多列进行求和我的模范学生如下 class Student lt ActiveRecord Base attr accessible class roll num total mark
Java 不是异步做事吗？

我正在尝试学习 Java 我正在阅读一个教程内容如下 while N lt 0 TextIO put The starting point must be positive Please try again N TextIO getlnI
如何将 xlsx 或 xls 文件读取为 Spark 数据帧

谁能告诉我在不转换 xlsx 或 xls 文件的情况下我们如何将它们读取为 Spark 数据框我已经尝试使用 pandas 进行读取然后尝试转换为 Spark 数据帧但出现错误错误是 Error Cannot merge type

如何将 xlsx 或 xls 文件读取为 Spark 数据帧

如何将 xlsx 或 xls 文件读取为 Spark 数据帧 的相关文章

随机推荐

热门标签

如何将 xlsx 或 xls 文件读取为 Spark 数据帧的相关文章