与 pandas 的时间序列相关性

2024-04-30

我有一些颗粒物传感器和 CSV，其时间序列如下：

传感器A：

                     date           value
date                                     
2017-11-30 00:00:00  30/11/17 0.00     49
2017-11-30 00:02:00  30/11/17 0.02     51
2017-11-30 00:03:00  30/11/17 0.03     54
2017-11-30 00:05:00  30/11/17 0.05     57
2017-11-30 00:07:00  30/11/17 0.07     53
2017-11-30 00:08:00  30/11/17 0.08     55
2017-11-30 00:10:00  30/11/17 0.10     55
2017-11-30 00:12:00  30/11/17 0.12     58
2017-11-30 00:13:00  30/11/17 0.13     57
2017-11-30 00:15:00  30/11/17 0.15     58
....
2018-02-06 09:30:00    6/2/18 9.30     33
2018-02-06 09:32:00    6/2/18 9.32     31
2018-02-06 09:33:00    6/2/18 9.33     34
2018-02-06 09:35:00    6/2/18 9.35     32
2018-02-06 09:37:00    6/2/18 9.37     33
2018-02-06 09:38:00    6/2/18 9.38     30

我将日期设置为索引：

df.index = pd.to_datetime(df['date'], format='%d/%m/%y %H.%M')

我想将来自同一传感器的数据和来自相似时间窗口中的不同传感器的数据之间的不同时间窗口关联起来。我希望知道我在一天/几天的某些时候是否有相同的增加/减少行为。设置“日期索引”后，我可以从传感器 A 获取“每天上午 9 点到上午 10 点的所有 PM 值”

df.between_time('9:00','10:00')

1) 问题 1：如何检查同一传感器但不同日期的相关性：我在两个 DataFrame 中过滤了两天的数据，但并不总是在同一分钟获取。我可能会遇到这样的情况：

01-01-2018 (df01 - I removed data column)
2018-01-01 09:05:00     11
2018-01-01 09:07:00     11
2018-01-01 09:09:00     10
....


02-01-2018 (df02)
2018-02-01 09:05:00     67
2018-02-01 09:07:00     68
2018-02-01 09:08:00     67
....

我应该重命名数据列吗？我实际上关心 01/01/2018 中的第三个值将与第二个窗口中的第三个值相关。

df01.corr(df02)

returns

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()

2) 问题 2：不同传感器之间的关联在本例中，我有 2 个 CVS 文件，其中包含来自两个传感器的 PM 值。作为问题1，我想将它们的相同时间窗口关联起来。即使在这种情况下，我也期望数据之间存在一些“偶然滞后”，但分钟之间的错误很好，我只想检查“正确位置”的值。例子：

Sensor A:
                         date           value
    date                                     
    2017-11-30 00:00:00  30/11/17 0.00     49
    2017-11-30 00:02:00  30/11/17 0.02     51
    2017-11-30 00:03:00  30/11/17 0.03     54
    2017-11-30 00:05:00  30/11/17 0.05     57

Sensor B:
                         date           value
    date                                     
    2017-11-30 00:00:00  30/11/17 0.00     1
    2017-11-30 00:02:00  30/11/17 0.02     40
    2017-11-30 00:04:00  30/11/17 0.03     11
    2017-11-30 00:05:00  30/11/17 0.05     57

AxB
                         date           valueA    valueB
    date                                     
    2017-11-30 00:00:00  30/11/17 0.00     49       1
    2017-11-30 00:02:00  30/11/17 0.02     51       40
    2017-11-30 00:03:00  30/11/17 0.03     54       11
    2017-11-30 00:05:00  30/11/17 0.05     57       57

先感谢您

我将尝试一起解决您的两个问题。这看起来像是一份工作pd.merge_asof() https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html，它在最接近匹配的键上合并，而不是仅在精确的键上合并。

示例数据

df1
date            value
30/11/17 0.00   51
30/11/17 0.02   53
30/11/17 0.05   65
30/11/17 0.08   58

df2
date            value
30/11/17 0.01   61
30/11/17 0.02   63
30/11/17 0.04   65
30/11/17 0.07   68

预处理

df1.date = pd.to_datetime(df1.date, format='%d/%m/%y %H.%M')
df2.date = pd.to_datetime(df2.date, format='%d/%m/%y %H.%M')
df1.set_index('date', inplace=True)
df2.set_index('date', inplace=True)

df1
                     value
date
2017-11-30 00:00:00     51
2017-11-30 00:02:00     53
2017-11-30 00:05:00     65
2017-11-30 00:08:00     58

df2
                     value
date
2017-11-30 00:01:00     61
2017-11-30 00:02:00     63
2017-11-30 00:04:00     65
2017-11-30 00:07:00     68

根据最近的索引匹配合并数据帧

merged = pd.merge_asof(df1, df2, left_index=True, right_index=True, direction='nearest')
merged
                         value_x  value_y
date
2017-11-30 00:00:00       51       61
2017-11-30 00:02:00       53       63
2017-11-30 00:05:00       65       65
2017-11-30 00:08:00       58       68

Notes

上面的用法是pd.merge_asof保持索引df1;中的每一行df1收到最接近的匹配df2, 有更换, so if df2行数曾经少于df1，的结果merge_asof将包含来自的重复值df2。结果将具有相同的行数df1.

您提到您实际上只关心按相对位置比较行，例如比较第三个值df1到第三个值df2。而不是使用merge_asof，一旦您使用时间索引来获取感兴趣的时间段，您就可以简单地忽略它，并使用以下命令访问底层 numpy 数组df.values:

# Get a 2D array of shape (4, 1)
df1.values
array([[51],
       [53],
       [65],
       [58]])

# Get a 1D array of shape (4,)
df1.values.flatten()
array([51, 53, 65, 58])

# numpy correlation matrix
pd.np.corrcoef(df1.values.flatten(), df2.values.flatten())
array([[1.        , 0.61287265],
       [0.61287265, 1.        ]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)