Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

2024-04-19

我是 PySpark 和 EMR 的新手。
我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark，但遇到错误。

我使用以下代码生成 SparkSession：

spark = SparkSession.builder \
    .master("local[*]")\
    .appName("parallelization on Spark")\
    .getOrCreate()

尝试以下方法访问远程集群，但出现错误：

spark = SparkSession.builder \
    .master("spark://<remote-emr-ec2-hostname>:7077")\
    .appName("parallelization on Spark")\
    .getOrCreate()

Error:

Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.NullPointerException
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:567)
    at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

任何解决此问题的帮助将不胜感激。

EMR 集群已为您配置 Jupyter 和 JupyterHub自 EMR 版本 5.14.0 起 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html.

最有可能的是，更容易调整这些提供的服务 https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/除了连接本地进程与 EMR 主节点通信之外，还有一些额外的引导操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

jupyter

amazonemr

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群的相关文章

minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

Python json内存膨胀

import json import time from itertools import count def keygen size for i in count 1 s str i yield 0 size len s str s de
设置子视图以适合系统窗口

我正在设置一个简单的视图其中仅包含一个空的RelativeLayout
如何启动第二个 Java 进程？

如何启动第二个独立于平台的 Java 进程理想情况下它应该与当前运行的 Java 版本相同有什么有用的系统属性吗您可以使用java home系统属性来查找当前的 JVM String jvm new java io File new
如何以编程方式获取 iOS 状态栏高度

我知道目前 iPhone iPad 顶部的状态栏包含时间电池和网络连接对于非视网膜屏幕为 20 像素对于视网膜屏幕为 40 像素但为了未来证明我的应用程序我希望无需硬编码值即可确定这一点是否可以通过编程计算出状态栏的高度 UI
Q_PROPERTY NOTIFY 信号及其参数

我有写 propertyChanged 的习惯signals 带参数这样接收端就不需要调用Q PROPERTY s READ明确地发挥作用我这样做是出于清晰的考虑并且假设在 QML 数据绑定情况下不需要对 getter 进行昂贵
如何在 TypeScript 中创建本地模块

我已经在文件夹中创建了src modules my module 其中有package json并定义了导出我们需要的所有内容的主文件我现在可以从中导入import A from modules my module 我想将语法更改为imp
如何通过sql查询在数据库中只保存时间而不保存日期

此查询正在保存完整的日期和时间但我只想在数据库中保存时间而不是日期有什么查询可以做到这一点吗 update table set current time now 您的列必须设置为 DATETIME 或 TIMESTAMP 如果您使用 T
使用 Google Apps 脚本抓取动态网页

我想使用其他网站读取项目的一些数据谷歌脚本 https script google com 有问题的页面是Dyanmic 它们包含在初始页面加载后通过 JavaScript 调用服务器加载的内容通常对于一些静态内容这工作得很好但我对
无法将 CSS 应用于 html 字符串

我正在尝试将 evoPDF 集成到我的 asp net 应用程序上我通过 ajax 从我的 html 文件 onclick 发送部分 html 直到这一部分一切正常现在当我从 EvoPdf API 调用这些方法时 1 GetPdfBy
如何计算连续行的时间差

原始数据如下所示我想按访问者和时间对其进行排序以计算行中的时间差然后将其保存到新文件中 visitor v time payment items 1 Jack 1 2 2018 16 07 35 3 2 Jack 1 2 2018 1
在 C++ 中使用 realloc

std realloc如果 malloc 的内存包含非 Pod 类型则在 C 中是危险的看来only问题是std realloc如果无法在原位增加内存则不会调用类型析构函数一个简单的解决方法是try realloc功能如果新内存无
如何在java中获取大尺寸数组

我是java新手我想在java中获取大输入大小的数组但给了我一些运行时错误 NZEC 我不知道它我也对此错误做了一些研究但没有找到与我的问题相关的任何内容 long n sc nextLong n can be upto 10 9
YouTube API 身份验证 - Iphone

我正在尝试使用 youtube api 的示例代码上传视频当我按下上传按钮时进度条完成其过程但是一旦到达终点我就会收到错误错误描述如下 YouTubeTest 2149 f803 错误错误 Domain com google GD
防止 TestNg 在并行测试之间共享数据

Goal 并行独立运行 2 个类其中每个测试将方法名称存储到稍后可以在测试中访问的变量中 Issue 当测试并行运行时它们开始在彼此之间共享数据从而破坏测试如果您看到控制台输出则这是错误的 INFO Name of Test fr
我可以在 Javascript 中定义自定义运算符重载吗？ [复制]

这个问题在这里已经有答案了是否可以在 JavaScript 中的类型实例之间定义自定义运算符例如假设我有一个自定义向量类是否可以使用 vect1 vect2 检查是否相等而底层代码会是这样的 operator a b return
使用控件模板创建图像+文本按钮？

我厌倦了一遍又一遍地创建相同的图像文本按钮我想将标记移动到控件模板这是我的问题我需要提供模板绑定以将图像和文本添加到模板化按钮而 Button 控件似乎没有我可以绑定的属性到目前为止我的模板看起来像这样带有表示未知模板绑定
如何在特定项目中禁用“初始化 JS/TS 语言功能”？

我有一个 Laravel 项目在 Visual Studio Code 中开发它另外我在一个单独的项目中也有使用 Angular 8 的前端该项目也使用 VSC 我构建 Angular 项目并将构建版本推送到 Laravel 项目中
eclipse项目未导入本地Maven仓库中的jar包

我在设置 Eclipse 项目时遇到问题问题是每当我创建一个新项目并导入代码时 Eclipse 不会解析 C user m2 repository 中存在的 jar 文件中存在的包因此它会给出很多编译错误直到我通过添加外部 Jar
任务“：app：transformClassesWithDexForDebug”执行失败

我正在尝试执行代码但我在消息中收到错误消息梯度构建 that Execution failed for task app transformClassesWithDexForDebug Error Execution failed for
Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

我是 PySpark 和 EMR 的新手我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误我使用以下代码生成 SparkSession spark SparkSession builder

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群 的相关文章

随机推荐

热门标签

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群的相关文章