pyspark 在一次加载中加载多个分区文件

2023-12-02

我正在尝试在一次加载中加载多个文件。都是分区文件 当我用 1 个文件尝试它时,它可以工作,但是当我列出 24 个文件时,它给了我这个错误,除了在加载后进行联合之外,我找不到任何有关限制的文档和解决方法。 还有其他选择吗?

下面的代码重现了问题:

basepath = '/file/' 
paths = ['/file/df201601.orc', '/file/df201602.orc', '/file/df201603.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc',  
         '/file/df201604.orc', '/file/df201605.orc', '/file/df201606.orc', ]   

df = sqlContext.read.format('orc') \
               options(header='true',inferschema='true',basePath=basePath)\
               .load(*paths)

收到错误:

 TypeError                                 Traceback (most recent call last)
 <ipython-input-43-7fb8fade5e19> in <module>()

---> 37 df = sqlContext.read.format('orc')                .options(header='true', inferschema='true',basePath=basePath)                .load(*paths)
     38 

TypeError: load() takes at most 4 arguments (24 given)

正如中所解释的官方文档,要读取多个文件,您应该传递一个list:

path– 文件系统支持的数据源的可选字符串或字符串列表。

所以在你的情况下:

(sqlContext.read
    .format('orc') 
    .options(basePath=basePath)
    .load(path=paths))

参数解包 (*)只有在以下情况下才有意义load用可变参数定义,形式示例:

def load(this, *paths):
    ...
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark 在一次加载中加载多个分区文件 的相关文章

随机推荐

  • 如何使用Python读取邮件的邮件正文?

    登录并阅读主题作品 读取正文时发生错误 错误是什么 在互联网上 错误总是在这部分 email message from bytes data 0 1 decode 但我认为这部分是正确的 Connection settings HOST i
  • 按重复名称合并列表列表中的内容

    给定这样的列表列表 是否有一种优雅的方法将原始数据转换为已处理数据 我使用简单的值 如 1 2 3 但值可以是数据框或其他值 目标不是消除每个唯一名称的重复内容 而只是通过合并内容来消除重复名称 original structure lis
  • 如何使用fftw Guru界面

    我以前用过fftw plan dft用于多维傅里叶变换 fftw plan fftw plan dft int rank const int n fftw complex in fftw complex out int sign unsig
  • Angular 6 - Less CSS 的导入不再起作用

    我想重用 Angular 5 项目中使用 Less 的一些结构 在这个旧项目中我可以简单地加载 less在组件内使用此行的文件 import app shared less bootstrap 这将加载 my app src app sha
  • 如何解析 Inno Setup Pascal 脚本中的安装程序命令行开关值?

    当安装成功时 我试图从安装程序中触发 S2S 像素 像素需要一些详细信息 例如 IP 位置 时间和子 ID 我获得了除子 ID 之外的所有详细信息 子 ID 是在命令行上指定的 subID xxxx执行安装程序时进行切换 您可以使用 par
  • 无法删除 TableLayoutPanel 中控件之间的间距?

    我添加到我的按钮之间有一些间距TableLayoutPanel 我删除了按钮中的边框 并将面板中的边距和填充设置为 0 但我继续保持这种间距 tableLayoutPanel RowCount 设置为 8 并且Rows我添加了 8 行的集合
  • 从 ArrayList 中删除重复项

    我有一个自定义对象的 ArrayList 我想删除重复的条目 这些对象具有三个字段 title subtitle and id 如果某个副标题出现多次 我只需要带有该副标题的第一个项目 忽略带有该副标题的剩余对象 您可以使用自定义比较器将
  • ES6 通过 --experimental-modules 在 Node 中导入

    尝试在带有 experimental modules 标志的节点中使用 ES6 导入 具体来说 mkdir ma cd ma npm init npm i save moving averages touch index mjs 现在将以下
  • 为什么 es6 React 组件只能在“默认导出”下工作?

    该组件确实有效 export class Template extends React Component render return div component div export default Template 如果我删除最后一行
  • ID不能为空(自动递增)

    我正在为我的网站使用 INSERT ON DUPLICATE KEY 语句 它用于创建新闻项目 所以我想我可以使用相同的 MySQL 命令来创建和更新新闻项目 但是 当我使用以下内容时 INSERT INTO table id title
  • 蟒蛇海龟形状

    我正在用 pythonturtle 绘制一些东西 我使用了形状函数 但是形状在它们之前过度绘制了其他形状 我可以看到形状在移动 并且我只得到了最后一个形状 up goto 200 200 down shape circle shapesiz
  • 用于获取 VBA 中单击的 ActiveX 按钮名称的通用事件处理程序。

    所以我想知道是否可以引用被单击的按钮 所以我不必为每个按钮更改太多代码 这就是我所拥有的 Private Sub CommandButton1 Click Dim name As String With CommandButton1 If
  • 无法导入“联系表单 1”:无效的帖子类型 wpcf7_contact_form 无法导入媒体“db_site.sql_.txt”

    我是网络开发新手 特别是 WordPress 我使用 WordPress 作为 cms 框架创建了一个网站 我将数据库导入到我的 WordPress 仪表板中 一切都很顺利 但问题是某些内容从未成功导入 消息是这样的 无法导入媒体 db s
  • 循环遍历 data.table 并根据某些条件创建新列

    我有一个包含相当多列的 data table 我需要循环它们并使用某些条件创建新列 目前我正在为每一列编写单独的条件行 让我用一个例子来解释一下 让我们将示例数据视为 set seed 71 DT lt data table town re
  • 从另一种形式访问数据网格

    我在form1中有datagridview 如何从 form2 访问 datagridview private void button1 Click object sender EventArgs e string sql1 insert
  • “静态”startActivity(Intent) 方法?

    我有一个按钮 它的 View OnClickHandler 实现类从最近的 android app Activity 对象引用实例化了大约 3 个构造函数 单击时 我希望它打开位置设置面板 以便用户可以通过启动来启用 GPS 和 或基于网络
  • 如何控制活动流程 - 返回按钮与主页按钮

    我的申请中有 3 项活动 Activity1 gt Activity2 gt Activity3 在 Activity3 中 如果用户按 Back 我想返回到 Activity2 在Activity3的onPause事件中 我添加了一个fi
  • 找出两个长纪元值表示的两个日期之间的差异

    我的需要是我有一个 Long 值 它代表自纪元以来的毫秒值 我想找出那天和今天之间的天数差异 我正在使用Java8DAYS between inputDate currentDate 对于我使用过的 currentDateLocalDate
  • 如何让一个方法在后台持续运行直到程序结束?

    我想知道如何让方法在后台运行 IE 该方法在程序启动时启动 并持续执行其语句直到程序关闭 对于前 假设我有一个方法 gravity 它在程序运行时不断减少某个值 现在为了尝试这个 我使用以下程序 其中我试图在没有按下任何键时将公爵拉下来 重
  • pyspark 在一次加载中加载多个分区文件

    我正在尝试在一次加载中加载多个文件 都是分区文件 当我用 1 个文件尝试它时 它可以工作 但是当我列出 24 个文件时 它给了我这个错误 除了在加载后进行联合之外 我找不到任何有关限制的文档和解决方法 还有其他选择吗 下面的代码重现了问题