Dask 连接的简单方法（水平，轴=1，列）

2024-01-01

Action将两个 csv（data.csv 和 label.csv）读取到单个数据帧。

df = dd.read_csv(data_files, delimiter=' ', header=None, names=['x', 'y', 'z', 'intensity', 'r', 'g', 'b'])
df_label = dd.read_csv(label_files, delimiter=' ', header=None, names=['label'])

Problem列的串联需要已知的划分。然而，设置索引会对数据进行排序，这是我明确不希望的，因为两个文件的顺序是它们的匹配。

df = dd.concat([df, df_label], axis=1)
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-11-e6c2e1bdde55> in <module>()
----> 1 df = dd.concat([df, df_label], axis=1)

/uhome/hemmest/.local/lib/python3.5/site-packages/dask/dataframe/multi.py in concat(dfs, axis, join, interleave_partitions)
    573             return concat_unindexed_dataframes(dfs)
    574         else:
--> 575             raise ValueError('Unable to concatenate DataFrame with unknown '
    576                              'division specifying axis=1')
    577     else:

ValueError: Unable to concatenate DataFrame with unknown division specifying axis=1

Tried添加一个'id' column

df['id'] = pd.Series(range(len(df)))

然而，Dataframe 的长度导致 Series 大于内存。

Question显然 Dask 知道两个 Dataframe 具有相同的长度：

In [15]:
df.index.compute()
Out[15]:
Int64Index([      0,       1,       2,       3,       4,       5,       6,
                  7,       8,       9,
            ...
            1120910, 1120911, 1120912, 1120913, 1120914, 1120915, 1120916,
            1120917, 1120918, 1120919],
           dtype='int64', length=280994776)
In [16]:
df_label.index.compute()
Out[16]:
Int64Index([1, 5, 5, 2, 2, 2, 2, 2, 2, 2,
            ...
            3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
           dtype='int64', length=280994776)

如何利用这些知识来简单地连接？

解决方案（来自@Primer的评论）：

重新分区和重置索引
使用分配而不是连接

最终代码；

import os
from pathlib import Path
import dask.dataframe as dd
import numpy as np
import pandas as pd



df = dd.read_csv(['data/untermaederbrunnen_station1_xyz_intensity_rgb.txt'], delimiter=' ', header=None, names=['x', 'y', 'z', 'intensity', 'r', 'g', 'b'])
df_label = dd.read_csv(['data/untermaederbrunnen_station1_xyz_intensity_rgb.labels'], header=None, names=['label'])
# len(df), len(df_label), df_label.label.isnull().sum().compute()

df = df.repartition(npartitions=200)
df = df.reset_index(drop=True)
df_label = df_label.repartition(npartitions=200)
df_label = df_label.reset_index(drop=True)

df = df.assign(label = df_label.label)
df.head()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dask

Dask 连接的简单方法（水平，轴=1，列）的相关文章

scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发

随机推荐

如何在matlab中从向量中删除特定值？

例如如果我有以下索引向量 X 1 2 3 4 4997 4998 4999 5000 如何删除 X 中由另一个向量指定的索引例如 Y 9 18 27 36 45 54 63 72 81 981 990 999 因此删除 X 后将是 X
resharper + VS Black 主题使得 Note: 和 TODO: 蓝色且难以阅读

我的 Visual Studio 编辑器有一个黑色主题在我安装 resharper 之前一直没问题在此之后我的 TODO 和注释文本变得非常难以阅读有人知道解决办法吗您只需转到工具菜单然后选择选项 gt 环境 gt 字体和
Xcode 4 中的 Project->Rename 相当于什么

Xcode 3 具有易于使用的项目 gt 重命名功能以防我想更改正在开发的应用程序的名称我在 Xcode 4 中看不到该选项了重命名应用程序而不发生任何崩溃的最佳方法是什么 Thanks 1 单击带有项目名称的蓝色节点稍等片刻
在 Apache 2.4 中禁用 TLS 1.0

我是一名非技术人员但能够阅读手册的网站所有者我在 Debian 9 0 服务器上运行 Apache 2 4 10 我想禁用 TLS 1 0 我已阅读SSLProtocol 指令的 Apache 文档 https httpd apache
JS - 无法在 Safari 中将输入类型更改为 FILE

JSFIDDLE https jsfiddle net limon 0zfaevq3 该代码在除 Safari 之外的所有浏览器中都能完美运行由于未知原因 Safari 无法动态地将输入类型更改为file 首先为什么会发生这种情况然后
Gunicorn 不会同时处理同时发生的请求

我正在尝试使用 Gunicorn 及其异步工作人员来服务长时间运行的请求但我找不到任何可以开始工作的示例我用了这个例子here http gunicorn org 但在返回响应之前进行了调整添加了一个假延迟休眠 5 秒 def ap
在 UIManager 中找不到“RNCSafeAreaView”

我尝试打开一个捆绑包但是当 Android 运行时它会显示下一条消息 2020 01 05 23 15 45 366 26210 26210 com note principal W note principa 访问隐藏字段 Landr
在java中的给定索引处有效地添加ArrayList中的元素

我需要在 ArrayList 的索引 i 处插入一个 Person 类型的元素我自己定义的类我知道我可以使用add int index E element http docs oracle com javase 7 docs api j
查找字符串并删除行 - Node.JS

如何在node js中读取文件搜索字符串和删除行我努力了 var fs require fs fs readFile shuffle txt function read err data if err throw err lastInd
Selenium - 为什么最小化浏览器会给出找不到元素的错误，而最大浏览器不会

我正在使用 Selenium 2 0 据我所知 Selenium 并不真正关心浏览器的大小但是当我单击下拉菜单时它似乎无法找到不在浏览器视图中的所有元素而当其最大化时它可以找到我个人认为它会爬行网络脚本但我的观察证明我错了评
触摸事件不触发 C# WPF

我创建了一个订阅 WPF 触摸事件的程序在过去的几个月里一切都按预期工作但昨天没有任何触摸事件会触发我尝试创建一个新的简单程序来测试触摸事件但它的工作原理是相同的所有触摸输入都作为鼠标事件发送即使光标从鼠标箭头变为触摸十字准线
Phonegap - 一旦我使用 window.location.replace 离开索引范围，处理推送通知

我在用着Phonegap http phonegap com 4 2 基于Cordova 5 0 创建跨平台应用程序该应用程序适用于 Android 和 iOS 当用户加载应用程序时他位于index html 从那里我可以访问各种 Ja
GNU 工具链如何决定使用近跳转指令与短跳转指令？

我有一些代码gcc 4 8 5 如果重要的话在两台不同的机器上编译成几乎相同的二进制文件除了一个地方其中一台机器上的工具链中的某些东西决定使用近 JE指令而另一台机器上的工具链决定使用简短 JE 指令 41e274 85 ed
Haskell 元组构造函数 (GHC) 以及语言与其实现之间的分离

当我意识到这一点时哈斯克尔再次让我大吃一惊 x y 只是语法糖 x y 当然我想将其扩展到更大的元组但 x y z Gave me x y z 这不是我想要的一时兴起我尝试了 x y z 它起作用了给出了我想要的 x y z 这
如何导入从html导入.json的.js

我不是说英语的公民我英语不好但我做得最好我正在尝试导入一个从 html 导入 json 的 js 文件 js import JSON from json menu json function function parseMenu ul
我如何在同时具有“script”和“doc”的 ES 上发出单个更新请求..？

我的文档请求 POST test v2 update Z nM 2wBjkGOA r6ArOb doc CD middle prakash first raj doc as upsert true 我的脚本请求 POST test
将编码字符添加到 url 会破坏 htaccess

这是我的代码 RewriteEngine on RewriteRule page index php url 1 NC 当我访问时page http google com http google com 我相信你需要B escape htt
mv 包裹在 shell 脚本中的 if 内

你怎么做到这一点我的想法是这样的另外我需要使用 fi 并完成吗或仅其中之一 if mv 1 txt gt 2 txt 0 then echo Success else echo Failure fi done 在 BASH 中只有这
多重返回：哪一个设置最终的返回值？

鉴于此代码 String test try return 1 finally return 2 语言规范是否定义了调用的返回值test 换句话说在每个 JVM 中它总是相同的吗在 Sun JVM 中返回值是2 但我想确定这不依赖于虚
Dask 连接的简单方法（水平，轴=1，列）

Action将两个 csv data csv 和 label csv 读取到单个数据帧 df dd read csv data files delimiter header None names x y z intensity r g b

Dask 连接的简单方法（水平，轴=1，列）

Dask 连接的简单方法（水平，轴=1，列） 的相关文章

随机推荐

热门标签

Dask 连接的简单方法（水平，轴=1，列）的相关文章