pandas 中 csv 的条件行读取

2024-01-07

我有大型 CSV，我只对行的子集感兴趣。特别是，我想读入在满足特定条件之前发生的所有行。

例如，如果read_csv将产生数据框：

     A    B      C
1   34   3.20   'b'
2   24   9.21   'b'
3   34   3.32   'c'
4   24   24.3   'c'
5   35   1.12   'a'
... 
1e9 42   2.15   'd'

有没有办法读取 csv 中的所有行，直到 col B 超过 10。在上面的示例中，我想读入：

     A    B      C
1   34   3.20   'b'
2   24   9.21   'b'
3   34   3.32   'c'
4   24   24.3   'c'

我知道如何在读入数据帧后将这些行扔掉，但此时我已经花费了所有计算来读入它们。在读取 csv 之前我无法访问最后一行的索引（不跳页脚 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html please)

您可以分块读取 csv。自从pd.read_csv当chunksize指定参数后，可以使用itertools.takewhile仅读取所需数量的块，而不读取整个文件。

import itertools as IT
import pandas as pd

chunksize = 10 ** 5
chunks = pd.read_csv(filename, chunksize=chunksize, header=None)
chunks = IT.takewhile(lambda chunk: chunk['B'].iloc[-1] < 10, chunks)
df = pd.concat(chunks)
mask = df['B'] < 10
df = df.loc[mask]

或者，为了避免使用df.loc[mask]要从最后一个块中删除不需要的行，也许一个更干净的解决方案是定义一个自定义生成器：

import itertools as IT
import pandas as pd

def valid(chunks):
    for chunk in chunks:
        mask = chunk['B'] < 10
        if mask.all():
            yield chunk
        else:
            yield chunk.loc[mask]
            break

chunksize = 10 ** 5
chunks = pd.read_csv(filename, chunksize=chunksize, header=None)
df = pd.concat(valid(chunks))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

pandas

pandas 中 csv 的条件行读取的相关文章

在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

Azure 服务总线使用 Azure.Messaging.ServiceBus 一次读取所有消息

我在用Azure Messaging ServiceBusnuget 包可与 Azure 服务总线配合使用我们已经创建了一个主题和订阅该订阅有 100 多条消息我们希望阅读所有消息并在消息到达时继续阅读 Microsoft Azur
Google App Engine 标准 dev_appserver.py 出现导入错误

我正在尝试跑步dev appserver py在此Google App Engine 标准 Flask 示例 https github com GoogleCloudPlatform python docs samples tree mas
通过动画交换 Activity 中的片段

我想通过动画交换活动中的两个片段假设 PageA 用于片段 A 和屏幕左侧 PageB 用于片段 B 即屏幕右侧现在我希望当我单击 pageA 上的按钮时 PageA 将移动到屏幕的右侧并带有一些过渡动画我尝试使用下面的代码来替换位置
Webpack 中的规则与加载器 - 有什么区别？

在一些 Webpack 示例中您会看到对 rules 数组的引用 module exports module rules test scss use ExtractTextPlugin extract fallback style loa
如何在codeigniter中集成html模板

我是 codeigniter 的新手请告诉我如何在 codeigniter 中集成或安装 html 主题模板我的css文件夹path news css和应用程序文件夹path news application 其中news是我的主文件
如何使用谷歌财经？

我想开发一个小型应用程序来自动从 Google Finance 获取股票价格并将其存储在我的本地计算机中以供将来分析谁能给我一些如何开始的线索我懂一些 C 它适合这个目的吗先感谢您 The Google 财经小工具 API https
F# 中使用可区分联合反序列化数据的另一个失败

在一个问题之后答案提供了一个工作解决方案来序列化反序列化受歧视的联合 IgnoreMissingMember 设置似乎不适用于 FSharpLu Json 反序列化器 https stackoverflow com questions
用转置版本填充矩阵

我有一个成对矩阵 gt gt gt m a b c d a 1 0 NaN NaN NaN b 0 5 1 0 NaN NaN c 0 6 0 0 1 0 NaN d 0 5 0 4 0 3 1 0 我想用与左下角相同的值替换右上角的 Na
添加 DTPerformanceSession.framework 会导致应用程序在运行时崩溃

我将 DTPerformanceSession framework 添加到 OSX 应用程序构建阶段当我运行该应用程序时它崩溃并出现以下错误 dyld dyld fatal error 0x7fff5fc0109c int3 0x7ff
通过外部应用程序调用函数，无需打开新的 Matlab 实例

有没有办法从外部调用Matlab函数特别是通过Windowscmd 还有 Linux 终端 LUA 脚本等而不需要每次都打开一个新的 Matlab 实例例如在cmd matlab sd myCurrentDirectory r fun
使用 preg_replace 修改 HTML 和 PHP [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有这个 HTML PHP 内容作
旋转 cv::Rect 的中心

我有一个图像我在图像上放置了一个矩形然后我旋转图像如何获得旋转图像上矩形的中心或者我可以以某种方式旋转一个矩形来放置旋转的图像吗我认为在这种情况下旋转必须沿着与用于旋转图像的点相同的点进行这是上面放置了一个矩形的图像这是旋转
Node.js - 将 markdown 字符串（仅粗体和斜体）解析为文本 + 样式 json 数组

尝试解析 JavaScript 中包含粗体注释的字符串标记为 multi word bold 星号和斜体注释标记为 multi word italic 强调我希望解析器功能支持多词注释斜体加粗体粗体加斜体和混合参见示例以下是
在 Windows 上保存 ini 文件的位置取决于机器（而不是用户）

我的应用程序当前正在将设置存储在当前用户配置文件下的 INI 文件中 C Documents and Settings
使用 Java 9 和 Java 10 从 Eclipse 上的 Tomcat 中删除 java.endorsed.dirs

我在 IDE 中使用 Eclipse 4 7 3a 和 Tomcat 9 0 4 我从 Java 8 升级到 Java 10 我改变了我的JAVA HOME指向 JDK 10 安装我进入 Eclipse 并创建一个新的 JDK 安装 JR
FormArray 长度不会被 form.reset() 重置

我正在研究 Angular 表单数据驱动方法我动态地将表单控件添加到 FormArray 我使用 form reset 重置添加的控件但 form reset 不会重置 FormArray 长度我发现这是一个已知问题可以使用此方法解
Java：Hibernate @OneToOne 映射

我正在尝试进入休眠状态 OneToOne注释在这里工作但没有取得太大成功假设我有一张名为status看起来像这样 status id frn user id frn content id status 1 111 0
Flutter PageView 无法在网页上滑动（桌面模式）

我是新来的扑腾我在其文档的帮助下实现了 flutter PageView Flutter code sample for PageView Here is an example of PageView It creates a cente
通过node.js向mysql插入多行

我想使用node js mysql 模块将多行插入到mysql 中我拥有的数据是 var data test test1 test test2 我正在使用泳池 pool getConnection function err connect
pandas 中 csv 的条件行读取

我有大型 CSV 我只对行的子集感兴趣特别是我想读入在满足特定条件之前发生的所有行例如如果read csv将产生数据框 A B C 1 34 3 20 b 2 24 9 21 b 3 34 3 32 c 4 24 24 3 c 5

pandas 中 csv 的条件行读取

pandas 中 csv 的条件行读取 的相关文章

随机推荐

热门标签

pandas 中 csv 的条件行读取的相关文章