对于 read_csv 和数据值 NA 来说，这是正确的行为吗？

2023-12-28

（我已经开了一个issue https://github.com/pydata/pandas/issues/10647在 GitHub。）

以下行为对我来说似乎不正确。似乎如果默认为read_csv is na_values=False那么包括“NA”在内的任何值都不应被解释为 NaN，但情况似乎并非如此。

这种行为被注意到在这个帖子 https://stackoverflow.com/questions/31527138/slicing-a-pandas-dataframe-using-two-strings（请参阅@JianxunLi 的答案的评论），其中“NA”实际上意味着“北美”。实际上，我无法找到一种方法来读取它而不将其更改为 NaN，并且肯定应该有某种方法可以做到这一点。

这是 csv 示例。

%more foo.txt
x,y
"NA",NA
"foo",foo

我在引号和外部都添加了“NA”，看看这是否重要，但正如您在下面看到的那样，它似乎并不重要。

pd.read_csv('foo.txt')
Out[56]: 
     x    y
0  NaN  NaN
1  foo  foo

pd.read_csv('foo.txt',na_values=False)
Out[57]: 
     x    y
0  NaN  NaN
1  foo  foo

pd.read_csv('foo.txt',na_values='foo')
Out[58]: 
    x   y
0 NaN NaN
1 NaN NaN

看来“NaN”的数据值与“NA”的处理方式相同。

编辑添加：我认为我根据@Marius的答案更好地理解了这一点，尽管它对我来说似乎并不正确（默认行为，即不是Marius的答案，这似乎是对正在发生的事情的正确解释）。

na_values=False    =>   NA and NaN are treated as NaN
na_values='foo'    =>   NA, NaN, and foo are treated as NaN

我想我可以理解这是数字列中的默认行为，但似乎这不应该是字符串列的默认行为。如果没有看到马吕斯的答案，我也很难从文档中弄清楚这一点。

编辑添加（2）：

另外，为了进行比较，我将其读入 Stata 和 Excel，在这两种情况下，它们都将“NA”视为纯文本，而不是 NaN/缺失。是否有任何其他包或库具有与 pandas 相同的默认行为？

你需要keep_default_na=False，默认情况下您包含的任何字符串na_values只是添加到标准的 NA 字符串集中，例如NA, NaN:

pd.read_csv('foo.txt', keep_default_na=False)
Out[5]: 
     x    y
0   NA   NA
1  foo  foo

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

对于 read_csv 和数据值 NA 来说，这是正确的行为吗？的相关文章

Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

Hive 表的 ORC 拆分生成问题

我在 Hadoop 3 3 4 上使用 Hive 版本 3 1 3 和 Tez 0 9 2 当我创建一个包含拆分的 ORC 表并尝试查询它时我得到一个ORC split generation failed例外如果我连接表格 https
cocos2d可以调节音量吗？

我使用以下方法在cocos2d中表达声音效果 SimpleAudioEngine sharedEngine playBackgroundMusic BackGround m4a 但背景音乐的音量太小那么有没有办法调节音量呢 Simpl
无法使用 Eclipse 和 Maven 让 Struts2 Hello World 工作

该网站不允许用户向他们的教程提出技术问题我认为该教程已损坏 http www mkyong com misc how to use mkyong tutorial http www mkyong com misc how to use m
std::function 无法区分重载函数

我试图理解为什么std function无法区分重载函数 include
无法加载私钥。（PEM例程：PEM_read_bio：无起始行：pem_lib.c：648：预期：任何私钥）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个 key 文件它是 PEM 格式的私钥文件我没有制作这个文件但我从某个地方得到了这个我想使用 openssl 工具查看其
如何对齐Gridview中心

我想将 GridView 居中对齐我还是这样正如您在上图中看到的我在左侧获取图像但我想在中心显示图像如下所示另一件事是获得文本背景的额外宽度我如何仅在图像中显示文本背景现在 gridview 位于中心但仍然遇到问题请参阅文
在 Titanium 应用程序中找不到库 stlport_shared

我想创建一个 Titanium 模块因此我有一个扩展 KrollModule 及其方法的类 Kroll method public void example Activity activity this getActivity Strin
git 子模块的公共子模块

我有一个申请main由多个子模块组成A B and utility functions 这两个子模块A and B本身包含子模块utility functions main A utility functions B utility fun
Tesseract-OCR 3.02 与 libc++

Xcode 4 6 iOS SDK 6 1 tesseract ocr 3 02 由于最新的 OpenCV 版本是使用构建的libc 并且 tesseract ocr 是使用构建的libstdc 库它们不能在一个 xcode 项目中一起使
禁止用户订阅 Firebase 主题

如何消除应用程序用户拨打电话的机会FirebaseMessaging subscribeToTopic String 为了仅在服务器端处理主题管理 Firebase 云消息传递主题是公开的无法阻止特定用户订阅它们
ERRO[0043] 拨打 gRPC 失败：无法升级到 h2c，收到 501

当我尝试使用以下命令构建 Dockerfile 时docker build t myimage1 今天我收到这个错误 ERRO 0043 failed to dial gRPC unable to upgrade to h2c receiv
用lark语法识别多行部分

我正在尝试编写一个简单的语法来解析具有多行部分的文本我不知道该怎么做这是我到目前为止写的语法如果有任何帮助我们将不胜感激 ps 我意识到 lark 对于这个问题来说太过分了但这只是我试图解析的一个非常简化的版本 from unit
调试多线程应用程序[重复]

这个问题在这里已经有答案了我有一个用 C 和 MFC 编写的应用程序它在 Windows 上运行多线程有时我确实会收到一些抱怨例如由于这些线程而导致的死锁或未处理的异常通常我使用 Visual Studio 如果问题可重现或使用
恢复 git merge 冲突标志

我正在尝试找出一种与团队其他成员共享合并冲突的方法我们有一些非常大的分支合并它们会产生很多冲突我尝试了几种不同的方法我当前的尝试包括将处于冲突状态的文件推送到远程存储库将合并标记留在文件中然后运行一个烦人的长别名来 grep 通
SciPy Optimizer 给出不满足约束的结果

我正在使用 scipy optimize minimize 来解决问题但包给出的结果违反了约束这种情况非常简单只给出一个目标函数和一个约束这是代码 import math import numpy as np import scip
将所有 QLineEdits 设置为只读

我试图将我的所有 QLineEdits 大约有 150 个设置为只读有没有办法在不单独检查和设置每个 QLineEdits 的情况下执行此操作我希望我能做类似的事情QLineEdit setReadOnly true 在我的构造函数中
用于查找无效电子邮件地址的 SQL 脚本

数据导入是从 Access 数据库完成的并且没有对电子邮件地址字段进行验证有没有人有一个可以返回无效电子邮件地址列表缺少等的sql脚本 SELECT FROM people WHERE email NOT LIKE 任何更复杂的事
Logstash 可以同时处理多个输出吗？

我对 Logstash 和弹性搜索很陌生我正在尝试将日志文件存储在elasticsearch 和平面文件中我知道logstash 支持这两种输出但它们是同时处理的吗还是通过工作定期完成是的您可以通过使用托运人配置上的 add t
为什么 Java 和 C# 中嵌套类的行为不同？

我不明白为什么Java中出现以下代码错误 public abstract class TestClass private final int data protected TestClass int data this data data
对于 read_csv 和数据值 NA 来说，这是正确的行为吗？

我已经开了一个issue https github com pydata pandas issues 10647在 GitHub 以下行为对我来说似乎不正确似乎如果默认为read csv is na values False那么包括 NA

对于 read_csv 和数据值 NA 来说，这是正确的行为吗？

对于 read_csv 和数据值 NA 来说，这是正确的行为吗？ 的相关文章

随机推荐

热门标签

对于 read_csv 和数据值 NA 来说，这是正确的行为吗？的相关文章