在python dask中读取带分隔符的csv

2024-01-09

我正在尝试创建一个DataFrame通过读取由 '######' 5 个哈希值分隔的 csv 文件

代码是：

import dask.dataframe as dd
df = dd.read_csv('D:\temp.csv',sep='#####',engine='python')
res = df.compute()

错误是：

dask.async.ValueError:
Dask dataframe inspected the first 1,000 rows of your csv file to guess the
data types of your columns.  These first 1,000 rows led us to an incorrect
guess.

For example a column may have had integers in the first 1000
rows followed by a float or missing value in the 1,001-st row.

You will need to specify some dtype information explicitly using the
``dtype=`` keyword argument for the right column names and dtypes.

    df = dd.read_csv(..., dtype={'my-column': float})

Pandas has given us the following error when trying to parse the file:

  "The 'dtype' option is not supported with the 'python' engine"

Traceback
 ---------
File "/home/ec2-user/anaconda3/lib/python3.4/site-packages/dask/async.py", line 263, in execute_task
result = _execute_task(task, data)
File "/home/ec2-user/anaconda3/lib/python3.4/site-packages/dask/async.py", line 245, in _execute_task
return func(*args2)
File "/home/ec2-user/anaconda3/lib/python3.4/site-packages/dask/dataframe/io.py", line 69, in _read_csv
raise ValueError(msg)

那么如何摆脱它呢。

如果我遵循错误，那么我必须为每一列提供 dtype，但如果我有 100 多个列，那么这是没有用的。

如果我在没有分隔符的情况下阅读，那么一切都会很好，但到处都是#####。所以在将其计算为pandas之后DataFrame，有办法摆脱它吗？

所以请帮助我。

将整个文件读取为dtype=object，意味着所有列都将被解释为类型object。这应该正确读取，摆脱#####在每一行中。从那里你可以使用以下命令将其转换为 pandas 数据框compute()方法。一旦数据进入 pandas 框架，您就可以使用 pandasinfer_objects方法来更新类型而不必对它们进行硬编码。

import dask.dataframe as dd
df = dd.read_csv('D:\temp.csv',sep='#####',dtype='object').compute()
res = df.infer_objects()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

separator

Dask

在python dask中读取带分隔符的csv 的相关文章

如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

RSA 加密在生成公钥/私钥之前强制关闭

我正在尝试生成第一个用于 RSA 加密的公钥私钥对这是我第一次这样做但通过查看各种教程和网站我决定使用以下代码来这样做虽然我的代码没有给我错误但它强制关闭所有内容都已发布包括我的导入有人可以帮助我理解为什么我的代码没有生成
java.lang.UnsupportedOperationException：会话：尝试为具有待处理请求的会话请求新权限

下面的代码是在android中使用facebookSDK3 0发布状态更新如果我正在使用UiLifeCycleHelper类其运行良好但我想在 Facebook 上发布状态而不使用UiLifeCycleHelper班级我尝试了下面的代
Storyboard：当我更改布局约束时，如何让 Xcode 自动更新框架？

我看过 WWDC 2014 视频 Interface Builder 中的新增功能其中演示者使用 Storyboard 并更改表视图控制器内表视图单元原型的高度大约 7 分 30 秒当他拖动单元格上的高度手柄时我看到该单元格的所有子
如何从 Flask/jinja2 循环中的列表中删除元素？

我目前正在制作一个flask项目我想在其中显示四个Bootstrap每行的列数为了做到这一点我想我可以这样做 my list a b c d e f g h i k l m n o p q r s t u v w x y z for
当我使用多个 ob_start() 而不使用 ob_end_clean() 或 ob_end_flush() 时会发生什么？

我已经查看了关于 ob start ob end clean ob end flush 的 php 手册我已经看到了关于该主题的不同示例无论如何我修改了该示例但此时我很困惑这是脚本 ob start echo Hello x ob
Android 应用程序密钥限制不适用于 Google Places API Web 服务 [重复]

这个问题在这里已经有答案了我已经提供了应用程序的包名称应用程序 ID 和 sha1 证书指纹但 Android 应用程序密钥限制仍然不适用于 Google Places API Web 服务看起来 Google Web API 密钥
JWT OAuth 身份验证流程中的“错误请求”消息

我已按照文档中的所有说明生成 JWT 令牌但只收到错误请求作为响应当我尝试运行 eg 01 php jwt 时会发生同样的情况我正在使用 DocuSign 演示环境并使用 Postman 和curl 模拟请求我正在做的步骤是
使用 Enthought Canopy 修复雅虎财经的 panda 数据读取器

雅虎财经的 pandas 数据阅读器目前无法工作因为雅虎更改了用于获取数据的 url pandas 雅虎将其更改为 http ichart yahoo com table csv to http ichart finance yahoo
使用 ajax 创建 Grail Jquery 模态窗口和表单发布？

我有以下代码 div title Create a new Comment div
C++模板：根据模板参数的值选择不同的类型

我如何在 C 中完成以下操作什么是做这样的事情 template
iOS 应用程序的启动顺序是什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案正如标题所示当用户按下图标启动iOS应用程序时它的启动顺序是什么以及在这个启动顺序中我自己定制的类的二进制源何时加载到内存中以及由
如何修复 azure devops 构建代理中的“*pod* 不支持配置文件”

我目前在 Azure Devops 中的管道存在问题自3月27日起我收到错误错误 Alamofire 不支持配置文件 Alamofire 不支持配置文件但已手动指定配置文件 prov 配置文件名称在构建设置编辑器中将配置文件值设置
在 contextMenu chrome 中使用选定的文本（清单版本 3）

我正在尝试将 chrome 扩展从清单版本 2 重写为清单版本 3 该扩展程序的作用是使用选定的文本创建特定的 URL 它根据所选文本将一个项目添加到 Chrome 浏览器的 contextMenu 中当用户单击该项目时该 URL 将在
django-rest-auth 身份验证不起作用

我想要一个简单的 api 身份验证路由django rest framework和 django rest auth 默认 django 管理控制台确认注册部分工作正常我还可以看到用户不幸的是 api 身份验证不断向我返回错误 non
iOS 在应用程序之间共享数据

您好我想在同一 IOS 设备上的应用程序之间共享数据文件场景一个应用程序提取数据从服务器最多 1GB 到设备以及其他应用程序应该能够访问它我怎样才能实现这个目标没有越狱可能的解决方案只是小块钥匙串剪贴板自定义 U
静态 Actionscript 代码分析的可能性

我想直观地看到类函数和变量属性依赖关系例如NDepend http www ndepend com Screenshots aspx 但适用于 ActionScript 2 或 AS3 代码有什么计划或想法吗 Use doxyge
JAXB 中的解组器和架构

我有可以以各种格式保存文件的应用程序所有格式都是xml 所以我应该解决确定文件保存格式的问题所以我看到了 2 个解决方案不同的格式有不同的模式所以我可以通过它们来确定它我以我得到的方式设置模式here https stackov
Drupal：数据库中的内容类型不在结构>内容类型的内容类型列表中

不久前我创建了两种内容类型 protocol 和 protocol2 它们有点不同我还不确定哪一个最适合我的目的所以我尝试了两者并为每种创建了一些内容经过一番测试后我得出结论协议 2 是我要使用的协议并且我希望将其称为协议而
使用多个几何时如何消除 ggplotly 重复的图例条目

我正在尝试在 R 中制作一个分面绘图线图无论有多少个组可用于分面它都会生成一个图运行以下代码时我得到了一个理想的绘图如下图所示 R 3 6 0 most of these packages not necessary librar
在python dask中读取带分隔符的csv

我正在尝试创建一个DataFrame通过读取由 5 个哈希值分隔的 csv 文件代码是 import dask dataframe as dd df dd read csv D temp csv sep engine python res

在python dask中读取带分隔符的csv

在python dask中读取带分隔符的csv 的相关文章

随机推荐

热门标签