在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据

2023-12-31

我正在尝试使用从此处获取的每日数据来分析纽约的天气记录：http://cdiac.ornl.gov/epubs/ndp/ushcn/daily_doc.html http://cdiac.ornl.gov/epubs/ndp/ushcn/daily_doc.html

我正在加载数据：

tf = pandas.read_fwf(io.open('state30_NY.txt'), widths=widths, names=names, na_values=['-9999'])

Where:

>>> widths
[6, 4, 2, 4, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1, 5, 1, 1, 1]
>>> names
['COOP', 'YEAR', 'MONTH', 'ELEMENT', 'VALUE1', 'MFLAG1', 'QFLAG1', 'SFLAG1', 'VALUE2', 'MFLAG2', 'QFLAG2', 'SFLAG2', 'VALUE3', 'MFLAG3', 'QFLAG3', 'SFLAG3', 'VALUE4', 'MFLAG4', 'QFLAG4', 'SFLAG4', 'VALUE5', 'MFLAG5', 'QFLAG5', 'SFLAG5', 'VALUE6', 'MFLAG6', 'QFLAG6', 'SFLAG6', 'VALUE7', 'MFLAG7', 'QFLAG7', 'SFLAG7', 'VALUE8', 'MFLAG8', 'QFLAG8', 'SFLAG8', 'VALUE9', 'MFLAG9', 'QFLAG9', 'SFLAG9', 'VALUE10', 'MFLAG10', 'QFLAG10', 'SFLAG10', 'VALUE11', 'MFLAG11', 'QFLAG11', 'SFLAG11', 'VALUE12', 'MFLAG12', 'QFLAG12', 'SFLAG12', 'VALUE13', 'MFLAG13', 'QFLAG13', 'SFLAG13', 'VALUE14', 'MFLAG14', 'QFLAG14', 'SFLAG14', 'VALUE15', 'MFLAG15', 'QFLAG15', 'SFLAG15', 'VALUE16', 'MFLAG16', 'QFLAG16', 'SFLAG16', 'VALUE17', 'MFLAG17', 'QFLAG17', 'SFLAG17', 'VALUE18', 'MFLAG18', 'QFLAG18', 'SFLAG18', 'VALUE19', 'MFLAG19', 'QFLAG19', 'SFLAG19', 'VALUE20', 'MFLAG20', 'QFLAG20', 'SFLAG20', 'VALUE21', 'MFLAG21', 'QFLAG21', 'SFLAG21', 'VALUE22', 'MFLAG22', 'QFLAG22', 'SFLAG22', 'VALUE23', 'MFLAG23', 'QFLAG23', 'SFLAG23', 'VALUE24', 'MFLAG24', 'QFLAG24', 'SFLAG24', 'VALUE25', 'MFLAG25', 'QFLAG25', 'SFLAG25', 'VALUE26', 'MFLAG26', 'QFLAG26', 'SFLAG26', 'VALUE27', 'MFLAG27', 'QFLAG27', 'SFLAG27', 'VALUE28', 'MFLAG28', 'QFLAG28', 'SFLAG28', 'VALUE29', 'MFLAG29', 'QFLAG29', 'SFLAG29', 'VALUE30', 'MFLAG30', 'QFLAG30', 'SFLAG30', 'VALUE31', 'MFLAG31', 'QFLAG31', 'SFLAG31']

现在，我遇到的问题是，在读取数据时，似乎有很多inf值，并且这些不应该出现在源数据中（数据中最接近的东西是-9999值，代表无效数据）。

通常情况下，如果我使用lists或类似的，我会打印出整个内容以查找对齐错误，并找出哪些行受到影响，然后查看源文件以了解发生了什么。我想知道如何在 pandas 中做同样的事情所以我可以弄清楚这些在哪里inf价值观来自。

这是向我展示的代码infs:

>>> tf[tf['ELEMENT']=='TMIN'].min()
COOP       300023
YEAR         1876
MONTH           1
ELEMENT      TMIN
VALUE1        -38
MFLAG1        inf
QFLAG1        inf
SFLAG1        inf
VALUE2        -34
MFLAG2        inf
QFLAG2        inf
SFLAG2        inf
VALUE3        -38
MFLAG3        inf
QFLAG3        inf
...
MFLAG28    inf
QFLAG28    inf
SFLAG28    inf
VALUE29    -46
MFLAG29    inf
QFLAG29    inf
SFLAG29    inf
VALUE30    -57
MFLAG30    inf
QFLAG30    inf
SFLAG30    inf
VALUE31    -40
MFLAG31    inf
QFLAG31    inf
SFLAG31    inf
Length: 128, dtype: object

编辑：更正了列宽。问题仍然存在。

首先，让我们模拟一些数据：

import numpy as np
import pandas

df = pandas.DataFrame(
    np.random.normal(size=(5,5)), 
    index='rA,rB,rC,rD,rE'.split(','),
    columns='cA,cB,cC,cD,cE'.split(',')
)
df[df > 1] = np.inf
df

例如，应该给出如下内容：

          cA        cB        cC        cD        cE
rA -1.202383 -0.625521       inf -0.888086 -0.215671
rB  0.537521 -1.149731  0.841687  0.190505       inf
rC -1.447124 -0.607486 -1.268923       inf  0.438190
rD -0.275085  0.793483  0.276376 -0.095727 -0.050957
rE -0.095414  0.048926  0.591899  0.298865 -0.308620

所以现在我可以使用花式索引来隔离所有infs.

print(df[np.isinf(df)].to_string())

    cA  cB   cC   cD   cE
rA NaN NaN  inf  NaN  NaN
rB NaN NaN  NaN  NaN  inf
rC NaN NaN  NaN  inf  NaN
rD NaN NaN  NaN  NaN  NaN
rE NaN NaN  NaN  NaN  NaN

但这并不是真正有用。所以除了找到infs，我们应该将列索引堆叠到行中（反透视，如果你愿意的话）然后删除所有NaN价值观。这将为我们提供行/列的良好摘要infs.

df[np.isinf(df)].stack().dropna()

rA  cC    inf
rB  cE    inf
rC  cD    inf
dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

fileio

fixedwidth

readfwf

在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据的相关文章

使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我

随机推荐

使用 CSS 替换 ul 项目符号点样式

我想替换 ul 列表的列表样式类型属性以便外部是一个圆盘然后一个内部 ul 列表是一个圆再一个内部是一个圆盘依此类推本质上我想要的是这样的 ul li Lorem ipsum li li ul li Lorem ipsum li
如何将匿名类型转换为已知类型

我有一个匿名类型变量该变量是从另一个函数获取的我们无法更改它 var a property1 abc property2 def 我有一堂课 class Myclass string property1 string property2
根据用户输入设置选中的复选框

我有这些 HTML 元素 div div
将 sql_variant 转换为 varchar 形式提供的 data_type

我有一个如下的sql表 Types table Name varchar 50 Type varchar 50 Car varchar 50 Apples int 我正在使用另一个表来存储值例如 Apples table V
如何在 iBatis 中获得排序结果？

我有一个表 mgr employee 有 2 列 managerName teamEmployee 虽然我在 sql 中进行了排序但我在 java 中得到了未排序的 resultMap 如何获得排序后的地图为什么 iBatis 会混淆
Kubernetes：从远程浏览器访问仪表板

我有一个小型 Kubernetes 集群主要是这本教程 https www profiq com kubernetes cluster setup using virtual machines 因此我在 Virtual Box Cen
Highcharts - 休息 1 小时

我似乎无法弄清楚为什么 x 轴上的时间总是晚一个小时我知道它与这条线有关但我不知道将其更改为什么 date Date parse line 0 UTC 我当前的时区是伦敦我有这个文件 index php
创建跨 Maven 测试阶段工作的临时数据库？

我加入了一个项目该项目有很多带有 SQL 语句的文件用于创建用于集成测试的数据库我想知道如何使用这些文件来创建用于单元测试的数据库使用java和maven 我可以为每个单元测试创建一个 HSQL 内存数据库甚至可以使用 spri
如何使用 SimpleHtmlDom 在 HTML 的 head 标签之间插入链接标签

我试图通过使用来操作 HTML 代码simplehtmldom sourceforge net http simplehtmldom sourceforge net 这是我到目前为止所得到的我可以创建一个新文件或将索引 html to 索
所有 ajax 请求完成后执行代码

我有一个相当复杂的搜索它利用多个ajax调用流程如下 user performs search on button click ajax request is made to php page which returns json da
WPF&MVVM：库 System.Windows.Interactivity 不再可用？

我需要添加System Windows Interactivity dll图书馆通过Reference Manager In Visual Studio 2017 我没找到所有从以下位置开始的搜索结果System Windows如下面的屏
为什么“git add *”不会添加“git status”表示未暂存的文件？

当我打字时 git add 它的表现就好像没有添加文件但当我这样做时 git status 它显示未暂存的文件我可以通过手动输入名称来暂存它们如图所示但在相同情况下这需要相当长的时间我的问题是在这种情况下为什么我不能只输入 g
在java中处理n个if-else if的更好方法

我想知道是否有更好的方法来处理n no Java 中的 if else if 块我有一种情况我需要根据 n 打印不同的值 if else if conditions 块如 if p 1 q r System out println Co
angular2，打字稿对等无效，无法导入模块

我有两个问题可能它们相互依赖我无法要求导入电子邮件受保护 cdn cgi l email protection 打字稿可以工作但我看到错误通过命令 npm list email protected cdn cgi l email
Django：重用表单字段而不继承？

如果我有两个基于不同基类例如 Form 和 ModelForm 的表单但我想在这两个表单中使用一些字段我可以以 DRY 方式重用它们吗考虑以下场景 class AfricanSwallowForm forms ModelForm a
Phonegap Android 应用程序每次方向改变时都会重置到主屏幕

我正在为Android平台创建phonegap应用程序但是当我更改方向时它每次都会重置并返回主屏幕
将 GPUImage 过滤器应用到 UIView

我有一个问题我需要应用像这样的过滤器Pixelate or Blur到整个UIView 像eBay iPad app 我想用GPUImage但我不知道该怎么做有一种方法可以将过滤器应用于GPUImageView直接不经过aUIImage
MVC 6 中的 HtmlHelpers

我正在尝试将此代码移植到 mvc 6 感谢任何帮助代码可以编译但该方法在我的观点中不可用 Html IsActive using Microsoft AspNet Mvc Rendering namespace Blah Web Hel
展开元组/列表时不需要的部分

Python 就是为了编写漂亮的代码于是我就跑了pylint当我遇到某些东西时检查我的代码的美观性未使用的变量 myvar1 从我的代码的这一部分 for myvar1 myvar2 in mylist Do stuff just
在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据

我正在尝试使用从此处获取的每日数据来分析纽约的天气记录 http cdiac ornl gov epubs ndp ushcn daily doc html http cdiac ornl gov epubs ndp ushcn daily

在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据

在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据 的相关文章

随机推荐

热门标签

在使用 read_fwf() 读取的 pandas 数据框中查找虚假数据的相关文章