Pandas read_csv,读取缺失值指定为 int 的布尔值

2024-03-07

我正在尝试将 csv 导入到 pandas 数据框中。我有用 1 和 0 表示的布尔变量,其中缺失值用 -9 标识。 当我尝试将 dtype 指定为布尔值时,我会收到许多不同的错误,具体取决于我尝试的内容。

示例数据:test.csv

var1, var2
0,   0
0,   1
1,   3
-9,  0
0,   2
1,   7

我尝试在导入时指定数据类型:

dtype_dict = {'var1':'bool','var2':'int'}
nan_dict = {'var1':[-9]}
foo = pd.read_csv('test.csv',dtype=dtype_dict, na_values=nan_dict)

我收到以下错误:

ValueError:无法安全地将 |b1 的传递用户数据类型转换为 int64 第 0 列中的 dtyped 数据

我也尝试过指定 true 和 false 值,

foo = pd.read_csv('test.csv',dtype=dtype_dict,na_values=nan_dict,
                 true_values=[1],false_values=[0])

但后来我得到了一个不同的错误:

例外:必须是所有编码字节

该错误的源代码说明了有关捕获偶尔的 none 的内容,但 none 或 null 正是我想要的。


您可以指定converters参数为var1 column:

from io import StringIO
import numpy as np
import pandas as pd

pd.read_csv(StringIO("""var1, var2
0,   0
0,   1
1,   3
-9,  0
0,   2
1,   7"""), converters = {'var1': lambda x: bool(int(x)) if x != '-9' else np.nan})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas read_csv,读取缺失值指定为 int 的布尔值 的相关文章

  • sphinx 中的分组方法文档字符串

    是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组 以便将它们列在一起 class Test object def a self A method of group foo def b self A method
  • 如何在 kubernetes 上使多个 pod 相互通信

    我是 Kubernetes 新手 我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库 我将映像部署在多个 Pod 中 状态显
  • 修复类以在 Flask 会话中启用对象存储[重复]

    这个问题在这里已经有答案了 我有一个自定义类 Passport 其中包含活动用户身份和权限 我曾经将它存储在会话中 如下所示 p Passport p do something fancy session passport p 它就奏效了
  • 在Python中迭代文件对象不起作用,但readlines()可以,但效率低下

    在下面的代码中 如果我使用 for line in fin 它只对 a 执行 但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
  • S3 选择检索 CSV 中的标头

    我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
  • Highcharts 奇怪的分组行为

    我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法 在服务器端 我使用 Python MySQL 并有 4 个包含 OHLC 数据的表 时间间隔为 5
  • __getitem__、__setitem__ 如何处理切片?

    我正在运行 Python 2 7 10 我需要拦截列表中的更改 我所说的 更改 是指在浅层意义上修改列表的任何内容 如果列表由相同顺序的相同对象组成 则列表不会更改 无论这些对象的状态如何 否则 它会更改 我不需要找出来how列表已经改变
  • 将分布拟合到直方图

    I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
  • 使用 python-docx 在 docx 文件中查找所有“正常”样式且字体大小不是 11 的文本

    到目前为止我的实现 from docx api import Document import pandas as pd from docx shared import Pt texts sizes document Document new
  • Python代码执行时自动打开浏览器

    我正在 Python Flask 中实现 GUI Flask 的设计方式是 必须 手动 打开本地主机以及端口号 有没有一种方法可以使其自动化 以便在运行代码时自动打开浏览器 本地主机 我尝试使用 webbrowser 包 但它在会话终止后打
  • 直接打开Spyder还是通过Pythonxy打开?

    之前 我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标 今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它 这两种方法有什么区别吗 如果不是的话 有什么意义Python x y
  • 将查询参数添加到 URL

    我正在尝试自动从网站下载数据 我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单 如何传递参数并从 url 获取结果 这是我尝试过的 它需要在 python 2 7 中 import urllib url https d
  • 将 for 循环替换为 pyspark 中的并行进程

    我在脚本中使用 for 循环来为 size DF 数据帧 的每个元素调用函数 但这需要很多时间 我尝试通过地图删除 for 循环 但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表 用于 import call
  • Bottle 是否可以处理没有并发的请求?

    起初 我认为 Bottle 会并发处理请求 所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
  • 在Python中确定句子中2个单词之间的邻近度

    我需要确定 Python 句子中两个单词之间的接近度 例如 在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意 该词
  • 使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

    Dears 我正在创建一个脚本python来在Plone站点中批量上传文件 安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔 在新创建的项目中设置文件时出现错误 下面是脚本 f
  • 在Python中将罗马数字转换为整数

    根据 user2486 所说 这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
  • 用户的完整 UNIX 用户名

    想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名 示例 如果我的 UNIX 用户名是 froyo 那么我想获取我的全名 在本例中 如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
  • Python 可以替代 Java 小程序吗?

    除了制作用于物理模拟 如抛射运动 重力等 的教育性 Java 小程序之外 还有其他选择吗 如果你想让它在浏览器中运行 你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
  • Pandas DataFrame 自定义 agg 函数奇怪的行为

    我想使用自定义函数沿轴聚合 Pandas DataFrame 但我无法弄清楚该函数应返回什么 df pd DataFrame np arange 50 reshape 10 5 您可以将 numpy 函数传递给DataFrame agg C

随机推荐

  • 如何使用 Django ORM 在没有数百个查询的情况下选择多对一对多?

    我的数据库具有以下架构 class Product models Model pass class Tag models Model product models ForeignKey Product attr1 models CharFi
  • 多个WebGLRenderer可以渲染同一个场景吗?

    是否可以使用两个实例WebGLRenderer 使用两个Canvas渲染相同的场景 var renderer new THREE WebGLRenderer canvas canvas1 renderer setSize 100 100 v
  • C# 锁定 WinForm 控件

    在我编写的程序中 用户可以向窗体添加控件并移动它们 并在伪设计模式下设置一些属性 我希望能够在按下按钮切换到 数据模式 时将所有这些控件锁定到一个位置 我怎样才能做到这一点 我希望能够循环遍历所有控件并使用 Lock 属性 但我注意到它没有
  • Xcode:尝试在 iOS 模拟器中运行应用程序时出现无效符号链接错误

    在我的应用程序编译阶段结束时 我看到无效的符号链接错误 这只是我每次运行时创建的一些临时目录 我尝试删除它但无济于事 该应用程序在设备上运行良好 任何帮助将非常感激 当您的应用程序包含指向应用程序包外部的符号链接时 通常会发生该错误 在为设
  • 在javascript中,使用回调执行多个异步函数的最佳实践是什么?

    有一个函数需要调用不确定数量的其他 可能异步 函数 每个函数都带有回调 我使用以下模式 虽然很确定它是正确的 但在美学上不太令人愉悦 fn responsible for figuring out and calling aysnc fun
  • Excel VBA从url获取网站标题

    Excel VBA 中的 HTML 页面标题 https stackoverflow com questions 7625316 html page title in excel vba 14509576 14509576 我知道这已经相当
  • Netty 4.0多端口,每个端口有不同的协议

    我想 netty 是我所知道的最好的 java 网络框架 在阅读并尝试一些示例后我有疑问 1 使用netty 4 0创建具有不同协议的多端口网络服务器的最佳方法是什么 每个服务器创建 EventLoopGroup bossGroup new
  • 如何覆盖引导样式

    我创建了轮播 我需要覆盖样式指示器按钮 我有风格 carousel indicators position absolute bottom 10px left 50 z index 1 width 60 padding left 0 mar
  • D2009 TStringlist ansisstring

    夏天的商业平静已经开始 所以我开始迁移到 D2009 我粗略地确定了程序的每个子系统是否应该保留 ascii 或者可以是 unicode 然后开始移植 一切都很顺利 所有组件都在 D2009 版本中 有些组件 如 VSTView 虽然稍微不
  • 如何将多个参数传递给 apply 函数

    我有一个名为 count 的方法 它需要 2 个参数 我需要使用 apply 方法来调用此方法 但是 当我将两个参数传递给 apply 方法时 出现以下错误 类型错误 counting 恰好需要 2 个参数 给定 1 个 我看过以下主题py
  • NSImage 无法缩放

    我正在开发一个快速应用程序 其中我有一种方法可以将 2x 图像重新缩放为常规图像 问题是它没有 Why BOOL createNormalImage NSString inputRetinaImagePath NSImage inputRe
  • 安装 IPython 开发版本后,IPython 笔记本无法启动

    我今天尝试安装 IPython 的开发版本 但是当我运行 ipython Notebook pylab inline 时 我打开一个空笔记本 没有仪表板 只有一个空白页 命令行显示 WARNING tornado access 404 GE
  • 图表未使用 Shiny R 和 NVD3 渲染

    我一直在尝试使用 NVD3 库创建闪亮的时间序列图 我对 R Shiny 和 NVD3 比较陌生 问题是 当我运行 ShinyApp 时 浏览器上没有呈现任何图表 使用 Chromes 开发人员工具 我可以看到 myChart 的 div
  • VBA:如何将不同工作表上的两个范围合并为一个,以循环遍历

    尝试将两个宽度相等但长度不同的范围 每个范围位于不同的纸张上 读取到另一个范围中 我需要按特定顺序循环组合数据 Set wRIL Worksheets INS Set rRIL wRIL Range L2 Set rRIL rRIL Cur
  • 谷歌地图缩小限制[重复]

    这个问题在这里已经有答案了 How do I set zoom out limit on the map it currently lets me zoom out too far to the point that I see multi
  • 安装具有 CRAN 镜像依赖项的本地 R 包

    我已经构建了一个 R 包 即我有 mypackage tar gz 文件 该软件包依赖于其他几个软件包 所有这些软件包都可以从任何 CRAN 镜像下载和安装 现在我想在尚未安装依赖项的系统上安装此软件包 并且我希望在安装软件包时自动下载并安
  • 项目错误:QT 中的未知模块:webkitwidgets [重复]

    这个问题在这里已经有答案了 我正在尝试使用 MXE 在来自本教程 https stackoverflow com questions 14170590 building qt 5 on linux for windows 14170591
  • 使用 dplyr 和 rle 对条件组中的连续值进行计数

    我的问题与下面提出的问题非常相似 但是我想添加一个附加命令以仅返回序列具有超过 2 个连续值的情况 当给定的序列运行在给定的时代和给定的年份内有超过 2 个连续的数字时 如何计算连续 成功 的数量 即 consec 中的 1 个 类似的问题
  • SQL Server 和 MySQL 同步

    我正在与一个在 SQL Server 和 MySQL 之间同步的客户合作 其中包含完全相同的架构和数据 我们希望将这些数据集中到一个数据库中 除了性能和可维护性问题之外 最初的设计还有什么不好的地方呢 您可以使用 MySQL 实例在 SQL
  • Pandas read_csv,读取缺失值指定为 int 的布尔值

    我正在尝试将 csv 导入到 pandas 数据框中 我有用 1 和 0 表示的布尔变量 其中缺失值用 9 标识 当我尝试将 dtype 指定为布尔值时 我会收到许多不同的错误 具体取决于我尝试的内容 示例数据 test csv var1