为什么这个简单的 Spark 程序不利用多核？

2023-12-24

因此，我在 16 核多核系统上运行这个简单的程序。我运行它通过发布以下内容。

spark-submit --master local[*] pi.py

该程序的代码如下。

#"""pi.py"""
from pyspark import SparkContext
import random

N = 12500000

def sample(p):
    x, y = random.random(), random.random()
    return 1 if x*x + y*y < 1 else 0

sc = SparkContext("local", "Test App")
count = sc.parallelize(xrange(0, N)).map(sample).reduce(lambda a, b: a + b)
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)

当我使用top查看CPU时消耗，仅使用 1 个核心。为什么会这样呢？其次，火花文档说默认并行性包含在属性中Spark.默认并行度。我如何从我的内部读取此属性 python 程序？

由于上述内容对我来说都没有真正的作用（也许是因为我并没有真正理解它们），所以这是我的两分钱。

我开始我的工作spark-submit program.py在我的文件里面sc = SparkContext("local", "Test")。我尝试验证核心数量spark sees with sc.defaultParallelism。原来是1。当我把上下文初始化改成sc = SparkContext("local[*]", "Test")它变成了 16（我系统的核心数量），并且我的程序正在使用所有核心。

我很新spark，但我的理解是local默认情况下表示使用一个核心，并且由于它是在程序内部设置的，因此它将覆盖其他设置（在我的情况下，它肯定会覆盖配置文件和环境变量中的设置）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scala

Bigdata

apachespark

multicore

为什么这个简单的 Spark 程序不利用多核？的相关文章

Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

如何在 jQuery 中选中多个复选框？ [复制]

这个问题在这里已经有答案了我有一个表格每行开头都有一个复选框每个复选框都有 tablecheckbox ID 表格标题行有一个复选图标应选中表格中所有框的内容我怎样才能用 jQuery 做到这一点这里 head checkbox
Django分页（获取对象对应的页号）

我有一个分页我试图从对象页面获取索引页面反向分页 get pagination posts 返回模型的分页器Post class PostManager models Manager def get paginated posts se
通过 syslog 发送 log4j2 堆栈跟踪

我正在尝试将堆栈跟踪记录到 Logstash 中日志堆栈是 ELK ElasticSearch Logstash Kibana 产生日志的应用程序是一个Java应用程序使用slf4j作为日志记录接口以及log4j2作为日志记录的实现
使用 spring 注释将值注入到地图中

我正在使用弹簧大多数情况下我会注入组件和服务但现在我想用枚举键初始化一个映射并注入缓存实现的值以便给定枚举我可以获取对象来刷新缓存 Map
与 Swift 字符串的可选链接

使用可选链接如果我有一个 Swift 变量 var s String s 可能包含 nil 或者包含在Optional 中的字符串所以我尝试这样做来获取它的长度 let count s characters count 0 然而编译
ModuleNotFoundError：没有名为“_lzma”的模块

我正在尝试在 xarray with MetPy Tutorial 的帮助下在metpy中进行绘图为此我在运行以下模块时遇到错误 import cartopy crs as crs import cartopy feature as c
ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) 是否保留顺序？

我打算使用ROW NUMBER OVER ORDER BY SELECT NULL 在选择查询中没有任何适当的数据列可在 order by 子句中使用一般来说 ROW NUMBER 如果我使用每次执行的顺序都会完全相同ORDER BY
laravel homestead Windows 7 上共享文件夹的主机路径丢失错误

我正在尝试在我的 Windows 7 机器上设置 Laravel Homestead 我安装了 vagrant 和 virtualbox 还有 git bash shell did vagrant box add laravel homes
如何配置aspectj以获得编译后编织（使用maven）？

如何配置 AspectJ 以获得编译后编织我刚刚在下面的插件中将编译替换为后编译不用说这是不成功的
具有 NavigationView/NavigationLink 延迟跳回的编程式导航

我创建一个简单的展示 https github com haemi NavigationProblem哪里可以重现我的问题我正在做的是从初始视图 gt View1 gt View2 导航从初始视图到 View1 的导航是通过按钮点击进行
Pandas“Freq”标签中哪些值有效？

我正在尝试使用date range 我发现了一些有效的值freq like BME and BMS我希望能够快速查找正确的字符串以获得我想要的东西 Pandas Freq 标签中哪些值有效你可以找到它叫偏移别名 https pandas
UITextField 在 iOS 5 中导致崩溃，在 iOS 4 中工作正常

我有一个非常奇怪的问题如果我单击 UITextField 我的应用程序中的任何 UITextField 都会崩溃并出现以下错误 0 CreateCachePathEmbedded CFString const 无符号字符 0x0246ac
Hibernate LazyInitializationException on find() 与 EAGER @ElementCollection

我正进入状态org hibernate LazyInitializationException illegal access to loading collection在我的 JPA 代码中当集合实体也有一个集合时所有集合都是 EAG
android：在设备旋转时禁用 opengl ES 上下文切换

我有一个 Android 全屏 opengl es 应用程序当设备从纵向旋转到横向并返回时 gl 上下文将被破坏并重新创建有办法避免这种情况吗即始终保持纵向或横向编辑我的活动中已经有这个代码 Override protected
在设备上使用 ACRA Logcat 为空

所以我使用 ACRA 4 4 0 和所有默认值并且我的 logcat 字段为空我的应用程序有
如何使用java httpclient实现大文件的HTTP Post分块上传？

我有一个巨大的文件要上传另一端的服务器确实支持分块上传有没有具体的例子说明如何做到这一点或者还有其他库可以做到这一点使用 HttpClient 4 来自 Apache HttpPost post new HttpPost url M
如何通过Java编码调用浏览器？

我想通过 Java 接口调用浏览器例如 Internet Explorer Firefox Google Chrome Opera 我还需要将一些 Web 链接传递给这个 Java 进程如何实现这一目标您可以使用桌面API http
WebView getScrollY() 始终返回 0

我尝试使用 webview 的滚动位置来确定 SwipeRefreshLayout 是否应该能够刷新除了某些网站例如https jobs lever co memebox https jobs lever co memebox getS
所以...NoSQL 的事情

我一直在研究 MongoDB 并且着迷看来尽管我不得不怀疑作为以稍微不同的方式组织数据库的交换我获得了与免费的 CPU 和 RAM 一样多的性能它看起来优雅灵活但我不会像使用 Rails 那样以快速换取它那么有什么问题呢关
为什么这个简单的 Spark 程序不利用多核？

因此我在 16 核多核系统上运行这个简单的程序我运行它通过发布以下内容 spark submit master local pi py 该程序的代码如下 pi py from pyspark import SparkContext i

为什么这个简单的 Spark 程序不利用多核？

为什么这个简单的 Spark 程序不利用多核？ 的相关文章

随机推荐

热门标签

为什么这个简单的 Spark 程序不利用多核？的相关文章