Pyspark AWS 凭证

2024-03-23

我正在尝试运行一个 PySpark 脚本,当我在本地计算机上运行它时,它可以正常工作。 问题是我想从 S3 获取输入文件。

无论我如何尝试,我似乎都无法找到设置 ID 和秘密的位置。我找到了一些有关特定文件的答案 前任:通过 Spark(或更好:pyspark)在本地读取 S3 文件 https://stackoverflow.com/questions/29443911/locally-reading-s3-files-through-spark-or-better-pyspark但我想设置整个 SparkContext 的凭据,因为我在整个代码中重用 sql 上下文。

所以问题是:如何设置AWS访问密钥和秘密来触发?

P.S 我尝试了 $SPARK_HOME/conf/hdfs-site.xml 和环境变量选项。两者都没有工作...

谢谢


对于 pyspark,我们可以设置如下所示的凭据

  sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", AWS_ACCESS_KEY)
  sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark AWS 凭证 的相关文章

  • 使用 Terraform 管理访问 RDS 数据库的凭据时出现问题

    我通过 Terraform 创建了一个秘密 该秘密用于访问也在 Terraform 中定义的 RDS 数据库 并且在秘密中 我不想包含username and password 因此我创建了一个空密钥 然后在 AWS 控制台中手动添加凭证
  • HashPartitioner 是如何工作的?

    我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是 除了
  • 如何在 PuTTY 中保存并运行 Java 文件?

    我是 AWS 亚马逊网络服务 的新手 所以这可能是一个基本问题 我在 AWS 上创建了一个 EC2 实例 我有一台 Windows 计算机 因此我使用 PUTTY 来连接 Linux 实例 连接到我的 EC2 实例后 我使用以下命令编写 J
  • 每次在我的 AWS SQS 目标上推送通知时如何触发事件?

    我正在将 AWS SQS 用于 Amazon MWS 订单 API 每当有人从已将我添加为其开发人员的卖家帐户订购时 亚马逊都会将通知发送到我的 AWS SQS 应用程序 我可以从那里提取通知 但为此 我必须创建一个调度程序来提取通知 我是
  • Scala:什么是 CompactBuffer?

    我试图弄清楚 CompactBuffer 的含义 和迭代器一样吗 请解释其中的差异 根据 Spark 的文档 它是 ArrayBuffer 的替代方案 可以提供更好的性能 因为它分配的内存更少 以下是 CompactBuffer 类文档的摘
  • 将 Django 部署到 AWS;傻瓜静态文件

    我对这个项目的最后一步完全迷失了 到目前为止 我已经能够开发一个 Django 应用程序 它可以在本地主机上按照我想要的方式工作 我已经能够将网站部署到 AWS EC2 但我一定错过了有关提供静态文件的一些基本知识 我什至还没有尝试过媒体文
  • 我们能否知道回形针下载何时完成?

    我有一个应用程序 我需要知道用户的 Rails Paperclip 文件下载时间complete 我的应用程序设置为与 Amazon S3 交互 当用户收到完整的文件时 我需要运行 JavaScript 函数 我怎样才能做到这一点 跟踪天气
  • Spark DataFrame 序列化为无效 json

    TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
  • 带有 AWS S3 文件的 Icecast 服务器

    我目前正在运行 Icecast 服务器 用于在 EC2 实例上传输音频 目前我所有的 mp3 文件都存储在 EC2 实例上 我想将它们移动到 AWS S3 进行存储 到目前为止 我已经能够找到能够更新播放列表 https mediareal
  • Amazon MWAA Airflow - 任务容器在没有日志的情况下关闭/停止/终止

    我们使用 Amazon MWAA Airflow 很少有任务标记为 FAILED 但根本没有日志 就好像容器在我们没有注意到的情况下被关闭了一样 我找到了这个链接 https cloud google com composer docs h
  • 将 IndexToString 应用于 Spark 中的特征向量

    Context 我有一个数据框 其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
  • 如何设置SPARK_HOME变量?

    按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
  • AWS Lambda 提前结束(没有任何显式返回或回调)

    我在放入 AWS Lambda 中的一些 Node js 代码时遇到了一些问题 我需要进行几个异步调用 虽然第一个调用的行为符合我的预期 但 lambda 函数在第二个调用完成之前终止 返回值为 null 这让我认为 lambda 正在执行
  • Spark 中的 Distinct() 函数如何工作?

    我是 Apache Spark 的新手 正在学习基本功能 有一个小疑问 假设我有一个元组 键 值 的 RDD 并且想从中获取一些唯一的元组 我使用distinct 函数 我想知道该函数基于什么基础认为元组是不同的 是基于键 值还是两者 di
  • 在 Serverless Framework 1.0 中使用路径参数

    我想使用路径参数 customer customerId of a GET请求以使用 AWS Lambda 查询客户 functions createCustomer handler handler createCustomer event
  • Spark 有没有办法捕获执行器终止异常?

    在执行我的 Spark 程序期间 有时 其原因对我来说仍然是个谜 yarn 会杀死容器 执行器 并给出超出内存限制的消息 我的程序确实恢复了 但 Spark 通过生成一个新容器重新执行任务 但是 在我的程序中 任务还会在磁盘上创建一些中间文
  • 错误:无法找到或加载主类 org.apache.spark.launcher.Main [重复]

    这个问题在这里已经有答案了 如果有人能帮我解决以下路径问题 我将不胜感激 我非常怀疑这与缺少路径设置有关 但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
  • Spark 2.2 无法将 df 写入 parquet

    我正在构建一个聚类算法 我需要存储模型以供将来加载 我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
  • 今天从 GitHub 操作构建 SAM 突然失败:模块“lib”没有属性“OpenSSL_add_all_algorithms”

    昨天 我的 SAM 构建正在使用以下 GitHub 操作 今天突然开始失败并出现错误 AttributeError 模块 lib 没有属性 OpenSSL add all algorithms 经我验证 SAM 模板没有任何错误 还有其他人
  • 如何从 AWS SAM 本地 docker 实例连接到主机 MySQL?

    我正在尝试使用调用我的 Lambda 函数sam local invoke但发现无法连接到我的主机MySQL 我尝试添加 docker network host但也无法连接 Traceback most recent call last F

随机推荐

  • 即使使用 delegate = self,uiwebview 也不会加载请求

    我创建了一个 NSObject 类并包含在 init 中 我创建了一个 uiwebview 将委托设置为 self 并发送加载请求 由于某种原因 webViewDidFinishLoad 或 didFailLoadWithError 永远不
  • 从 Dictionary 迁移到 ConcurrentDictionary,我应该注意哪些常见陷阱?

    我正在考虑从 Dictionary 迁移到 ConcurrentDictionary 以实现多线程环境 具体到我的用例 kvp 通常是
  • 超出内部响应标头大小限制

    当我重定向到相关网站的其他部分时 会发生此错误 return this RedirectToActionPermanent Index Dashboard 在错误发生之前 代码不会单步执行仪表板控制器中的 Index 方法 我认为发布的 F
  • grpc go:如何在服务器端知道客户端何时关闭连接

    我正在使用 grpc go 我有一个 rpc 看起来大致像这样 196 service MyService 197 Operation 1 198 rpc Operation1 OperationRequest returns Operat
  • 将两列添加到 vba 用户窗体组合框

    我有一个用于库存控制的用户表单 用于进出物品 我想做的就是修改下面的代码以在其代码旁边显示每个物品名称以进行搜索物品 代码 Private Sub ComboBox1 Click Dim i As Integer Dim j As Inte
  • 从 http 服务流式传输大文件

    我正在编写一个组件来从 HTTP 服务传输大数据 4 GB 该组件采用 URL 和目标流 目标流可以是文件流 也可以是 POSTS 到不同 HTTP 服务的流 甚至两者都是 作为组件的作者 我需要执行以下步骤直到完成 从 HTTP 流中读取
  • R闪亮制作子面板

    是否有一个简单的解决方案可以使 R 中创建的主选项卡面板中的选项卡面板闪亮 以下是我创建主面板的方法 mainPanel tabsetPanel id tabSelected tabPanel Tab1 uiOutput Tab1 tabP
  • 用于数据存储的 Lua 与 XML

    我们中的许多人都被灌输了使用 XML 来存储数据的观念 它的优点和缺点众所周知 我当然不想在这里讨论它们 然而 在我用 C 编写的项目中 我也使用 Lua 我非常惊讶 Lua 能够如此出色地存储和处理数据 然而 Lua 的这一方面却鲜为人知
  • 在UIPickerView而不是UIView中响应touchesBegan

    我有一个 UIPickerView 在不使用时会淡出至 20 alpha 我希望用户能够触摸选择器并使其淡入 如果我在主视图上放置一个 TouchBegan 方法 我就可以让它工作 但这仅在用户触摸视图时才有效 我尝试对 UIPickerV
  • 使用 join 获取嵌套对象数组的 SQL 查询

    摘要 我将从 JSON 模式开始来描述期望 请注意具有嵌套对象数组的角色 我正在寻找一个可以通过单个查询获取它的 智能查询 id 1 first John roles Expectation gt array of objects id 1
  • 使用 WPF WebBrowser 控件时如何抑制脚本错误?

    我有一个 WPF 应用程序 它使用 WPF WebBrowser 控件在平面显示器上向开发人员显示有趣的网页 如新闻源 问题是我偶尔会遇到 HTML 脚本错误 该错误会弹出一条令人讨厌的 IE 错误消息 询问我是否要 停止在此页面上运行脚本
  • 如何在数据表中格式化货币?

    This is a table which display transactions implementes using DataTables https datatables net document ready function var
  • 为什么 html() 执行 JavaScript,而innerHTML 不执行?

    为什么这个会执行
  • 如何在 Xamarin Forms 中显示 ToolBarItem 图标的徽章计数

    它不是关于如何显示通知徽章 也不是关于显示工具栏项目图标 如何在工具栏项目图标上显示徽章计数是一个明显的问题 我正在共享代码以在 XF 内容页面中创建带有图标的 ToolbarItem 在cs文件中 ToolbarItem cartItem
  • 如何使用 python (requests/urllib3) 登录 facebook?

    我正在尝试使用http docs python requests org en latest http docs python requests org en latest 自动登录 Facebook s requests session
  • 如何递归地对特定数组键的所有值求和?

    我有一个像这样的数组 Array 1000 gt Array pv gt 36 1101 gt Array 1102 gt Array pv gt 92 pv gt 38 pv gt 64 如何找到带有键 pv 的所有数组元素的总和 无论它
  • PHP:自引用数组

    有没有办法从数组中引用数组键 这在代码格式中可能更有意义 array array Key1 gt array Value1 Value2 Key2 gt this Key1 我想要的是为了 array Key2 输出与 array Key1
  • 如何优化像素艺术编辑器中的绘制区域

    我有像素艺术创作程序 并且画布上有矩形 它们是一个字段 像素 对于数据量不大 例如 128x128 来说 这是一个很好的解决方案 如果我想在画布上创建 1024x1024 矩形 这个过程会很长 RAM 使用量约为 1 2 GB 之后程序运行
  • 带参数的累积正态分布函数的反函数

    我想在 C 中实现与 matlab icdf 函数等效的功能 我已经找到了这篇有用的文章 https www johndcook com blog cpp phi inverse https www johndcook com blog c
  • Pyspark AWS 凭证

    我正在尝试运行一个 PySpark 脚本 当我在本地计算机上运行它时 它可以正常工作 问题是我想从 S3 获取输入文件 无论我如何尝试 我似乎都无法找到设置 ID 和秘密的位置 我找到了一些有关特定文件的答案 前任 通过 Spark 或更好