npartitions 在 Dask 数据框中的作用是什么？

2024-04-15

我看到参数了npartitions有很多功能，但我不明白它有什么用/有什么用。

http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv

头（...）

仅从前 n 个分区中获取元素，默认值为 1。如果第一个 n 分区中的行数少于 n 行，则会引发警告并返回任何找到的行。传递 -1 以使用所有分区。

重新分区(...)

输出的分区数必须小于输入的 npartitions。仅在未指定分区时使用。

在这种情况下，分区数量可能是 5：

（图片来源：http://dask.pydata.org/en/latest/dataframe-overview.html http://dask.pydata.org/en/latest/dataframe-overview.html )

The npartitionsproperty 是组成单个 Dask 数据帧的 Pandas 数据帧的数量。这主要通过两种方式影响性能。

如果您没有足够的分区，那么您可能无法有效地使用所有核心。例如，如果您的 dask.dataframe 只有一个分区，那么一次只能有一个核心运行。
如果分区太多，那么调度程序可能会产生大量开销来决定在哪里计算每个任务。

通常，您需要的分区数比核心数多几倍。每个任务在调度程序中占用几百微秒。

您可以在数据摄取时使用以下参数确定分区数量：blocksize= in read_csv(...)或者之后使用.repartition(...) method.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

Dask

npartitions 在 Dask 数据框中的作用是什么？的相关文章

检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo

随机推荐

SES：在 lambda 函数内访问电子邮件正文

我对 AWS 比较陌生我正在尝试通过 Lambda 函数处理我的电子邮件我在 node js 中构建了这个 use strict exports handler event context callback gt var http re
soundex算法的数据结构？

谁能建议我使用什么数据结构声学算法 http en wikipedia org wiki Soundex程序使用的语言是Java 如果有人以前用 Java 做过这个工作该程序应具有以下功能能够阅读约50 000字应该能够读取一个单词
单击图像时打开 Bootstrap 模式

当我点击时menu 5 1 png应该会弹出下面的模型 li class men 5l a href span img src images menu 5 1 PNG alt span p Mp3 p a li div class moda
不允许加载本地资源尝试使用 Javascript 在 Android 上打开 googlechrome://navigate?url=xxxx.com URI 架构

在 Android 设备上我需要使用 google chrome 打开 URL 无论单击 URL 的浏览器是什么在我的例子中是 facebook 应用内浏览器为此我使用 chrome URI 模式创建了带有 Javascript 重
可视化管理 MongoDB 文档和集合 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如果已经满足条件，则跳过活动的开始

在我的 Android 应用程序中我有一个使用以下方法的 Google plus 登录活动 Override public void onConnected Bundle connectionHint String accountName
使用 JNDI 数据源的 Spring Boot

我有一个新的 Spring Boot Web 应用程序我想连接到 JNDI 数据源 Tomcat 的 context xml 中定义的 MySQL 数据库然而当我尝试这样做时我总是遇到以下异常 org springframework
Safari Mobil iFrame 内容在视图之外未呈现

Problem Open https run plnkr co preview cjt4eonvv00043e5jhlqw9olb https run plnkr co preview cjt4eonvv00043e5jhlqw9olb 在
如何创建包含特征选择和 KerasClassifier 的 sklearn Pipeline？ GridSearchCV 期间 input_dim 更改的问题

我创建了一个 sklearn Pipeline 它使用 SelectPercentile f classif 进行通过管道传输到 KerasClassifier 的特征选择 SelectPercentile 使用的百分位是网格搜索中的超参数
如何使用剪贴板操作复制/剪切/粘贴文件（ctrl-c /ctrl-v）

正在尝试使用 win32clipboard 对文本进行复制粘贴操作到目前为止并且能够轻松完成但现在我想知道如何通过它来完成文件夹文件等的复制粘贴操作我正在使用 python 来实现同样的目的也找不到任何相关的格式是否类似于文
用于查找评论的 Ruby 正则表达式？

我一整天都在做这个但我无法弄清楚我在下面的字符串中有一些 Ruby 代码并且只想匹配带有代码的行以及代码的第一个注释如果存在 Some ignored comment 1 1 Simple math this comment wou
android：如何通过android应用程序拨打号码[重复]

这个问题在这里已经有答案了可能的重复如何在android中使用intent拨打电话 https stackoverflow com questions 4275678 how to make phone call using inten
从 Perl“内存不足”错误获取堆栈跟踪

tl dr 当 Perl httpd 进程内存不足时如何转储 Perl 堆栈跟踪我们有一台 mod perl 2 服务器 Perl 5 8 8 RHEL 5 6 Linux 2 6 18 非常偶然且不可预测的情况是子 httpd 进程开
MySQL中如何将自增格式设置为0001？

如何让MySQL以4位数字格式自动递增那么用 0001 代替 1 尝试向该字段添加 ZEROFILL 属性
在 Android 的 strings.xml 文件中连接字符串

可以将 strings xml 中已存在的字符串与当前字符串连接起来那就是如果我有
如何添加持久媒体控件，例如 Apollo 或 Google 音乐

I would like to add music controls such as play pause next and back as well as show a thumbnail and song title to the bo
Android 中进度对话框显示缓慢

我确信这是一个简单的线程问题但是我正在使用以下方法启动 ProgressDialog ProgressDialog show Example this Loading Please wait true true 然后运行一段代码来下载并
如何编写 PHP 编码来列出所有文件和目录作为它们的链接？

这有点类似于一些索引页当新文件或文件夹添加到目录中时 HTML 页面应在刷新后将新创建的文件文件夹与以前的文件文件夹一起显示最好按字母顺序如何在 PHP 中实现此类功能请同时提供示例编码以及任何参考文献这很简单在这里 fi
将数据写入列中的文件 (Fortran)

我需要在 Fortran 90 中写入一些数据到文件中我应该如何使用WRITE input将值分组为columns WRITE总是放一个new line每次通话后这就是问题所在代码示例 open unit 4 file generat
npartitions 在 Dask 数据框中的作用是什么？

我看到参数了npartitions有很多功能但我不明白它有什么用有什么用 http dask pydata org en latest dataframe api html dask dataframe read csv http da

npartitions 在 Dask 数据框中的作用是什么？

npartitions 在 Dask 数据框中的作用是什么？ 的相关文章

随机推荐

热门标签

npartitions 在 Dask 数据框中的作用是什么？的相关文章