每次列中字符串值发生变化时如何拆分数据框？

2023-12-09

我有一个以下形式的数据框：

         time     value   label
0  2020-01-01 -0.556014    high
1  2020-01-02  0.185451    high
2  2020-01-03 -0.401111  medium
3  2020-01-04  0.436111  medium
4  2020-01-05  0.412933    high
5  2020-01-06  0.636421    high
6  2020-01-07  1.168237    high
7  2020-01-08  1.205073    high
8  2020-01-09  0.798674    high
9  2020-01-10  0.174116    high

我想填充一个数据帧列表，其中每个数据帧都是在列中的字符串时构建的label变化。所以第一个数据框是：

         time     value   label
0  2020-01-01 -0.556014    high
1  2020-01-02  0.185451    high

第二个数据框是：

         time     value   label
2  2020-01-03 -0.401111  medium
3  2020-01-04  0.436111  medium

等等。所需的列表是[df, df, ...]。如果您认为字典是更合适的容器，我根本不介意。

有一个类似的帖子叫如果列值的顺序发生变化，则拆分数据框 pandas，但这仅处理数值的变化。我已经做了一些尝试，但在比较行值时不断遇到索引问题label与之前的值。所以任何建议都会很棒！

这是一个可重现的片段：

# imports
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
import numpy as np
import random

# settings
observations = 100
np.random.seed(5)
value = np.random.uniform(low=-1, high=1, size=observations).tolist()
time = [t for t in pd.date_range('2020', freq='D', periods=observations).format()]

df=pd.DataFrame({'time': time, 
                 'value':value})
df['value']=df['value'].cumsum()

def classify(e):
    if e > 0.75: return 'high'
    if e > 0.25: return 'medium'
    if e >= 0: return 'low'

df['label1'] = [(elem-df['value'].min())/(df['value'].max()-df['value'].min()) for elem in df['value']]
df['label'] = [classify(elem) for elem in df['label1']]
df = df.drop('label1', 1)
df

我将创建一个在每次更改时递增的列，然后按该列进行分组。如果您需要单独的数据框，您可以在循环中分配它们。

df['group'] = df['label'].ne(df['label'].shift()).cumsum()
df = df.groupby('group')
dfs = []
for name, data in df:
    dfs.append(data)

dfs 将是一个数据帧列表，如下所示：

[         time     value label  group
 0  2020-01-01 -0.556014  high      1
 1  2020-01-02  0.185451  high      1,
          time     value   label  group
 2  2020-01-03 -0.401111  medium      2
 3  2020-01-04  0.436111  medium      2,
          time     value label  group
 4  2020-01-05  0.412933  high      3
 5  2020-01-06  0.636421  high      3
 6  2020-01-07  1.168237  high      3
 7  2020-01-08  1.205073  high      3
 8  2020-01-09  0.798674  high      3
 9  2020-01-10  0.174116  high      3]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

每次列中字符串值发生变化时如何拆分数据框？的相关文章

Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

通过与另一个数组进行比较来查找数组中的元素

我有一个矩阵 a 1 cancer 2 cancer 3 cancer 4 noncancer 5 noncancer 我有另一个带有值的矩阵 b 4 5 2 现在我必须将 b 矩阵值与 a 值进行比较输出应该是 output 4 non
如何有效生成对称矩阵的下三角索引

我需要生成下三角矩阵索引行和列对当前的实现效率低下内存方面特别是当对称矩阵变大超过 50K 行时有没有更好的办法 rows lt 2e 01 id lt which lower tri matrix rows rows TRU
Android中Handler-Looper的实现

我有处理程序的活动 UI 线程我启动新线程并创建 handler post new MyRunnable 新工作线程 Android 文档谈到 post 方法导致 Runnable r 添加到消息队列中 runnable 将在该处理程序
Selenium webdriver (c#) - 基于属性查找按钮

我正在尝试根据属性获取下面按钮的句柄gl command 我知道我可以使用Cssselector通过定位器但在这种情况下我不想这样做我应该指出这只是 AUT 中的众多按钮之一
group_by 总结 group_by dplyr 之外的内容

我正在尝试将此数据集中的 id 与日期分组但我想根据组外的功能之一进行总结 library dplyr library lubridate set seed 100 df lt data frame ids sample c 436247
如何从 ASP.NET MVC 中的 HttpModule 执行控制器操作？

我有以下内容IHttpModule我试图找出如何从控制器对给定的绝对或相对 URL 执行操作 public class CustomErrorHandlingModule IHttpModule region Implementation
使用 mySQL 进行 GROUP_CONCAT 后的数据求和

我正在使用 phpMyAdmn 并且在 mySQL 中有这个查询 SELECT BIL Date BIL Rate BIL Quantity GROUP CONCAT COALESCE STX Amount 0 AS ApplicableT
需要工作表脚本将图像保存到驱动器

我需要一个与 google 工作表一起使用的脚本以将 img url 列表保存到特定的 google 驱动器文件夹并使用来自另一个单元格的文件命名例如 A 列文件 URL 图像文件路径 jpgB 列另存为名称 image 1 自动
Javascript-按值删除数组项[重复]

这个问题在这里已经有答案了我的情况 var id tag 1 2 3 78 5 6 7 8 47 34 90 我想delete where id tag 90并返回 var id tag 1 2 3 78 5 6 7 8 47 34 我怎
数据框中连续出现的情况

我有上面的数据框包含不同的测量值我想确定连续测量值长度大小大于或等于 6 w一次拍摄t 例如在以下情况id 1 from t3 t8有6连续的w记录的措施我想将结果保存到2个数据框中 df1 At least 6 consecuti
iOS NSDateFormatter 需要 NSLocale 即使它是 UTC

我怀疑我无法理解为什么会这样我向这个网站的诸神求助我有一个约会是这样的 1982 01 01T00 00 00Z 当我显示服务器发送的任何内容时我知道客户要求不是好的做法我强制设备使用以下方法具有该时区在没有错误检查的情况下进
很困惑将代码放入 AsyncTask 中

我有这个代码来接收聊天消息但当我试图把它放进去时我很困惑AsyncTask 我有警告read cannot be resolved for read readline 当我把它放进去时postexecute 我想让这段代码在后台工作以检
不可能将对象添加到可变数组

我正在尝试将 Song 对象添加到可变数组中但我很困惑因为尽管添加了对象但数组的计数并未增加 Song h import
Python 中的 cURL 帮助

我必须向服务器发送请求在该网站的 API 文档中有一个在 PHP 中使用 cURL 的示例 ch curl init curl setopt ch CURLOPT URL http api website com curl setopt
在 HTML 中呈现任意 JSON

我正在编写一个数据查看器页面来呈现从服务器作为 JSON 发送的对象 JSON 对象的内容和复杂性各不相同从具有少量属性的平面对象到具有多层嵌套和数组字段的较大结构我想做的是渲染对象的简单表示可能作为 ul 从那里我可以添加一些东西来
将两个 Unity 项目导入 Android Studio 无法按预期工作

我目前正在接受培训制作使用 Unity 添加一些功能 AR VR 等的应用程序目前我一直在使用 Android Studio 开发 Android 一旦完成我将在 iOS 上进行训练我的目标很简单我的MainActivity显示
在 Jupyter 实验室中以深色主题绘制 R 几乎不可见

我尝试在 Jupyter 实验室中使用 R 内核进行绘图并将 Jupyter 实验室主题设置为 Jupyterlab dark 下面是我的代码 options repr plot width 20 repr plot height 5 p
使用三元表达式返回会在第一次迭代时中断 foreach 循环

好的我测试了以下内容我会让您知道我的发现 echo 1 lt 0 true false will echo true echo 1 gt 0 true false will echo true Notice that 1 and 1 a
在armeabi-v7a中，streqh导致“无效指令，您的意思是：strexh，strh？”。 “eq”去哪儿了？

我在尝试为 armeabi v7a 编译的一些 ARM 代码中遇到此错误显然是 v7a 之前的内容 jni 6502asm arm S 108 2 error invalid instruction did you mean strexh
每次列中字符串值发生变化时如何拆分数据框？

我有一个以下形式的数据框 time value label 0 2020 01 01 0 556014 high 1 2020 01 02 0 185451 high 2 2020 01 03 0 401111 medium 3 2020

每次列中字符串值发生变化时如何拆分数据框？

每次列中字符串值发生变化时如何拆分数据框？ 的相关文章

随机推荐

热门标签

每次列中字符串值发生变化时如何拆分数据框？的相关文章