Python Pandas 混合布尔 Yes/True 和 NaN 列

2024-03-23

我正在学习健康科学课程，推荐使用 R 或 Stata。我正在尝试使用 Python / Numpy / Pandas 来代替，因为我希望将来使用它来进行金融时间序列分析。

数据是 Stata 格式，所以我复制了字段并将它们保存为CSV。所有字段导入都很好，除了有许多“是/否”列，其中一些列有空白字段。

导入命令是

fhs = pd.io.parsers.read_csv('F:\\BioStatistics\\fds\\fhs_c2.csv', header=0, index_col=0)

如果有空白字段，则数据类型是对象（有意义）

如果没有空格，某些列将转换为TRUE/FALSE，其他人离开为Yes/No但 dtype 是 bool。知道为什么吗？

我希望所有内容都通过一种数据类型并表达一种查看+统计分析的方式。

我通过在开头添加一行，为没有空格的布尔列添加空白单元格来实现这一点 - 所以一切都变成了对象。然后我用fhs = fhs.drop([1002])删除该行并且数据类型仍然很好。

我很想在没有这一行的情况下保存它，并且每次都能够使用“正确”类型加载数据，但不知道当某些列全部是或否，而有些列是空白时是否可能细胞。是否可以？

谢谢，抱歉新手问题。

Example:

输入

      C1    C2    C3

R1   Yes   Yes    No

R2    No    No    No

R3   Yes         Yes

R4   Yes   Yes   Yes

第一列进入 df 为 Yes, No, Yes, Yes 在下面输入 bool xxxx

第二列作为 Yes、No、NaN、Yes 类型对象进入 df

第三列作为 FALSE、FALSE、TRUE、TRUE 类型 bool 进入 df

该死。刚刚检查过。我错了。如果是或否，则列类型为对象。

我想在导入时告诉它，使它们全部对象并坚持是和否，因为： 1.我认为第二列必须是对象（否则我认为它是混合的） 2. 数据集是/否，其他班级成员将查看是和否

当我尝试解决方案时发生了什么。

这是我的数据：link https://i.stack.imgur.com/jIicg.gif

这是代码：
从 pandas 导入 *
将 numpy 导入为 np
将 pandas 导入为 pd

def convert_bool(col):
    if str(col).title() ==  "True": #check for nan
        return "Yes"
    elif str(col).title() == "False":
        return "No"
    else:
        return col

fhs = pd.read_csv('F:\\BioStatistics\\fds\\StatExport.csv', converters={"death": lambda x:convert_bool(x)}, header=0, index_col=0)

和输出link https://i.stack.imgur.com/moZQA.gif

您可以使用 pandas.read_csv 中的转换器字段

def convert_bool(col):
    if str(col).title() ==  "True": #check for nan
        return "YES"
    elif str(col).title() == "False":
        return "NO"
    else:
        return col
pandas.read_csv(file_in, converters={"C3": lambda x:convert_bool(x)})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

import

pandas

Python Pandas 混合布尔 Yes/True 和 NaN 列的相关文章

分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

是否可以使用 html 按钮为页面添加书签？

是否可以使用 html 按钮为页面添加书签
如何在不锁定活动方向的情况下锁定片段方向？

我有一个特定的用例我希望将片段锁定在纵向模式下但仍然旋转活动和或同一活动中可见的其他片段可以这样做吗所有锁定片段方向的解决方案都建议使用 setRequestedOrientation 并锁定活动方向但我需要其他可见片段进行旋
从 Active Directory C# 检索图片

我对 LDAP 非常陌生想知道是否有一种方法可以知道特定域的活动目录中填充了哪些信息例如我试图使用以下方法获取组织员工的图像 var bytes directoryEntry Properties thumbnailPhoto Val
Ruby on Rails：从 ids 到名称/标题等的 URL

我创建了生成脚手架的模型对象但现在我想而不是链接到 controller id objectname 1 到 controller title objectname new blog post 我该如何做到这一点以便链接能够正确链接到标
如何在 SQL 查询中向 SQL Server 列添加加一 (+1)

简单的问题是如何将 MS Query 中的字段值加 1 我正在尝试将 1 1 添加到int使用参数化方法在我的 SQL Server 数据库中创建列类似于变量上的 i 操作我正在使用以下方法 public static int Upd
使用文档和元素进行事件触发的区别

给定这两个关于事件触发器的jquery document on click a data trigger colorbox function e a data trigger colorbox on click function e 当我使
如何在 AutoHotkey 中读取多行用户输入？

我有一个 AutoHotkey 脚本需要从用户读取多行员工数据 InputBox userInput Employee Records Please enter employee records One per line Unfortun
XSLT 中的序列

我的 xml 输入是
为 iPod classic 编码视频

我刚刚安装完ffmpeg在 debian wheezy 上使用这些说明 http trac ffmpeg org wiki UbuntuCompilationGuide http trac ffmpeg org wiki UbuntuCom
Lua 中的“加载”有什么作用？

我试图解决我的理解问题loadLua 脚本中的函数但没有该命令的任何示例或指南它在他自己的 Lua 网站上讲述https www lua org manual 5 2 manual html pdf load https www lua
如何在 WPF 中将字符串绑定到 double？

我想设置一个绑定问题是目标是 string 类型但源是 double 类型在以下代码中 VersionNumber 的类型为 double 当我运行它时文本块是空的没有抛出任何异常我该如何设置这个绑定
使用 cron 防止 Bash 脚本并行或重叠运行

如果我的 cron 表中有以下条目 00 03 java prog1 sh 00 5 java prog2 sh 第一份工作通常需要 30 分钟左右才能完成第二项工作大约需要10分钟在某些特殊情况下第一份工作需要两个多小时有没有办法
jquery 和 updatepanel？

我在 ASP NET 中有一个更新面板可以进行部分页面刷新我使用 jQuery 取得了一些成功on 方法不过 document ready function 仅在页面初始加载期间调用而不是在每次 updatepanel 刷新后调用我
如何在 C++ 调试期间冻结 VSCode 中的线程

我已经使用 VSCode 进行编码几个月了真的是太棒了然而我发现我无法冻结一个线程我能做的就是Pause all threads and Continue all threads 如果不冻结特定线程则很难调试多线程程序尤其是一些
为什么 v1 Web 组件 customElements.define() 会抛出 TypeError

我正在使用 v1 Web 组件根据埃里克比德尔曼 Eric Bidelman 的说法自定义元素 v1 可重用的 Web 组件 https developers google com web fundamentals primers cu
将常规 Swift 函数转换为 Curry 函数

我正在尝试将常规函数转换为咖喱函数但得到Execution was interrupted 下面是我柯里化一个函数并执行 unsafeBitCast 来调用带有一个参数的函数并稍后使用第二个参数调用它的代码 func curry
当“状态”从“打开”更改为“已完成”时，如何将一行移动到工作表（GOOGLE SHEET）的底部

当状态更改为完整时如何将行移动到同一张纸的底部我试图找出一旦 Status B 列值从 OPEN 更改为 CLOSED 时如何将行移动到底部工作表名称为 Sheet1 其中状态下拉菜单位于 B 列下拉菜单包含 OPEN HOLD
libv4l2：打开流时出错：设备上没有剩余空间

我尝试为 opencv 获取立体声对我将 Logitech B910 和 Logitech C910 网络摄像头连接到 USB 但有这个错误我玩弄了怪癖参数并设置outfmt mjpeg在mplayer中但又出现此错误在哪里可以找到
theano 给出“...正在等待未知进程的现有锁...”

我的代码运行良好但是现在我收到一条错误消息 Using gpu device 0 GeForce GT 750M WARNING theano gof cmodule ModuleCache refresh Found key with
Python Pandas 混合布尔 Yes/True 和 NaN 列

我正在学习健康科学课程推荐使用 R 或 Stata 我正在尝试使用 Python Numpy Pandas 来代替因为我希望将来使用它来进行金融时间序列分析数据是 Stata 格式所以我复制了字段并将它们保存为CSV 所有字段导入都

热门标签