如何使用 python 跳过数据集数据类型错误的行

2024-03-13

一直致力于数据集清理和处理数据以进行进一步分析，我使用了不同的清理脚本。

每当数据集列之间出现任何不需要的/异常数据时，我的脚本就会中止，脚本执行会卡住并且其余数据不会得到处理。

我尝试使用的脚本：

import pandas as pd 
import numpy as np
pd.options.mode.chained_assignment = None 
df = pd.read_excel(open(r'data.xlsx', 'rb'), sheet_name='sheet1')

我一直在期待什么：

即使数据之间出现任何异常/未知的数据类型，我如何通过跳过并保留错误的数据类型来处理整个数据集。

我可以使用任何异常处理方法。

请建议。

我想我不太明白这个问题。

我一直都是这样做的，从来没有遇到过问题。

import pandas as pd
FileLocation = (r'Test.xlsx')
df = pd.read_excel(FileLocation, sheet_name='sheet1')
print(df.head)

然后，如果您想删除错误的数据，可以使用 for every 循环来迭代数据框。

但是，如果您在 Excel 阅读器将其读取为浮点数时遇到问题，但希望将其作为字符串，您可以这样做：

import pandas as pd
FileLocation = (r'Test.xlsx')
df = pd.read_excel(FileLocation, sheet_name='sheet1', converters={'COLUMN-NAME':str})
print(df.head)

然后你会得到想要的列作为字符串或任何你想要的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

如何使用 python 跳过数据集数据类型错误的行的相关文章

如何为 apscheduler 指定“记录器”

我正在尝试学习如何使用 Python 的 apscheduler 包但它会定期抛出以下错误 No handlers could be found for logger apscheduler scheduler 该消息似乎与计划作业中的错
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
SQLAlchemy - 如何使用 SQLAlchemy 做出“django 选择”？

在 Django 中我们可以使用非常简单的选择例如 GENDER CHOICES M Male F Female class Foo models Model gender models CharField max length 1
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
如何编辑 QProgressBar 的样式表

我无法在我的应用程序中编辑进度条的颜色仅编辑文本颜色 pyhton 3 9 PySide6 QT Creator 7 0 2 Python应用程序 https i stack imgur com 6hKFI png import sys
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
使用 MinGW 链接到 Python

我不想创建一个嵌入Python解释器的跨平台程序并用MinGW编译它但是 Python 二进制发行版没有提供 MinGW 链接的库仅python32 lib对于 Visual C 并且 Python 源包不提供使用 MinGW 编译的
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
如何获取DataFrame.pct_change来计算每日价格数据的每月变化？

我知道可以用periods争论但是如何将分布在一个月内例如交易日的每日价格数据进行回报化呢示例数据是 In 1 df AAPL 2009 01 02 16 00 00 90 36 2009 01 05 16 00 00 94 18
使用 asyncio 时应该如何创建属性？

在创建使用 asyncio 的类时我发现自己处于属性 getter 需要进行 io 操作的情况因此该函数应该是一个协程然而等待房产的感觉却很不寻常这是我的意思的一个最小的例子该代码有效并且可以运行 import asyncio
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

我遇到了 Scrapy 行为异常的问题几个月前我编写了一个简单的函数它返回给定 xpath 处的项目列表 def get html response path sel Selector text response page source
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

PHP 中如何处理并发请求（使用线程、线程池或子进程）

据我所知 PHP 支持处理多个并发连接并且根据服务器的不同可以按照本中提到的方式进行配置answer https stackoverflow com a 1430890 2159867 服务器如何管理多个连接是为每个请求分叉一个子进程
从 jquery ajax GET 将多个参数传递给 .asmx

html a fill in names and check it out a br p Enter First Name p
JPA 日期文字

如何在不使用类型化参数的情况下表示 JPA 查询中的日期如果日期确实是固定的例如 1980 年 3 月 1 日则代码 TypedQuery
带编译时检查的 l18n 框架

我目前正在开发一个更大的 Java 桌面应用程序现在我想添加翻译 l18n 系统让我困扰的是它不提供任何类型的编译时检查在java的系统中你有类似的东西HashMap 其中每个本地化字符串都有一个 Key 翻译后的字符串就是 Val
快速调整每个故事板问题的大小

我想知道是否有人可以告诉我如何编写此代码以便它自动调整大小以适应不同的屏幕尺寸我有 4 个屏幕尺寸不同的故事板只是想要一种显示代码的方法如果这个故事板那么数字改变遵循这个代码否则数字根据故事板大小而变化这个代码我已经尝试
Git 克隆错误“CONNECT 后来自代理的 HTTP 代码 504”

我在公司防火墙后面的办公室工作我的系统是Windows 7 使用consola组件通常我需要设置代理连接才能让 GIT 与 github 一起工作但是当我尝试克隆存储在私有 Stash Atlassian 中的存储库时我收到此错误
甲骨文移动平均线

我有一个表日期有效负载其中包含大约 10 年的数据我想计算移动平均值 MA 以基于 14 天 2 周和 90 天 12 周间隔显示有效负载的趋势我已经编写了这个查询但它给了我错误的值 SELECT x ABS LTMA ST
解析 phantomjs 中的 post 数据

I am working with the POSTMAN extension to chrome and am trying to send a post request to phantomjs I have managed to se
Visual Studio 2008 中 BizTalk 架构项目的引用问题

在大型 VS 2008 解决方案中我们有不同的架构项目和映射项目映射项目引用了适当的模式项目总体来说效果很好但是最近我添加了一个新的架构项目它始终如一地给出了同样的问题当我向其中添加新架构并且想要在已引用该架构项目的映射项目
在Puppeteer中进行网页抓取时如何处理验证码？

我正在使用 Puppeteer 进行网页抓取我刚刚注意到有时由于我通过计算机进行的访问量很大我尝试抓取的网站会要求输入验证码验证码形式如下所示因此我需要有关如何处理此问题的帮助自从我使用 Express 和 EJS 将值发送
使用 iframe 时，Angular 2 应用程序组件 ngOnInit 被调用两次

我正在开发一个 Angular 2 应用程序该应用程序将通过其他网站上的 iframe 进行交付在测试时我注意到当我加载应用程序时应用程序组件ngOnInit 函数被调用两次我觉得这很奇怪因为当我自己测试应用程序时即不是通过
如何使用 javascript 提取并更改 url 路径？

我正在尝试提取部分 url 并使用 javascript 将其替换为自定义文本例如我想获取当前的 url 例如 mydomain com url part to change some other stuff 然后更改要插入的 url
如何将对象文字作为聚合物属性传递

为了单独测试我的一些聚合物自定义元素我希望能够传入 js 对象文字来获取通常来自父元素的一些属性我很难弄清楚如何做到这一点请参阅此示例代码如果它按照我希望的方式工作它会显示一个 1 和一个 2 彼此相邻但它不起作用
如何在可内容编辑的 DIV 中查找光标位置？

我正在为内容可编辑 DIV 编写一个自动完成器需要在文本框中呈现 html 内容因此更喜欢使用 contenteditable DIV 而不是 TEXTAREA 现在我需要在 DIV 中有 keyup keydown click 事件时
对于自定义表单组件，是否可以使用 DefaultValueAccessor 而不是 ControlValueAccessor？

我需要能够使用formControlName我的自定义组件的指令我一直在阅读有关实施的多个SO问题ControlValueAccessor对于一个子组件来说这一切看起来都非常脆弱很多例子都在转变 div or span 元素转换为表单
ReactforwardRef 似乎不适用于 bootstrap Overlay

根据React Bootstrap 覆盖文档 https react bootstrap github io components overlays 覆盖的目标应该是the element the overlay is positioned
Firefox 中未定义 Intl

我有以下java脚本代码它在chrome中运行良好但在firefox和IE中运行失败 FF 的错误消息是 ReferenceError Intl is not Define IE 的错误消息是 SCRIPT5009 Intl 未定义我
gettext，如何处理同音异义词？

使用 gettext 单值 echo gettext Hello world n Plurals printf ngettext d comment d comments n n 英文同音字 echo gettext Letter as i
交互运行 cypress 命令

是否可以打开浏览器并交互运行 cypress 测试命令类似于使用scriptsChrome 开发者工具中的选项卡每次启动浏览器运行测试花费的时间太长我理解这种痛苦但据我所知赛普拉斯的自动扫描功能会在您更新测试时重新运行测试换
如何使用 python 跳过数据集数据类型错误的行

一直致力于数据集清理和处理数据以进行进一步分析我使用了不同的清理脚本每当数据集列之间出现任何不需要的异常数据时我的脚本就会中止脚本执行会卡住并且其余数据不会得到处理我尝试使用的脚本 import pandas as pd imp

如何使用 python 跳过数据集数据类型错误的行

如何使用 python 跳过数据集数据类型错误的行 的相关文章

随机推荐

热门标签

如何使用 python 跳过数据集数据类型错误的行的相关文章