这是统计和信号处理之间不同的共同定义的结果。基本上,信号处理定义假设您将处理去趋势。统计定义假设减去平均值就是您要做的所有去趋势操作,并且它会为您完成。
首先,让我们用一个独立的例子来演示这个问题:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from statsmodels.graphics import tsaplots
def label(ax, string):
ax.annotate(string, (1, 1), xytext=(-8, -8), ha='right', va='top',
size=14, xycoords='axes fraction', textcoords='offset points')
np.random.seed(1977)
data = np.random.normal(0, 1, 100).cumsum()
fig, axes = plt.subplots(nrows=4, figsize=(8, 12))
fig.tight_layout()
axes[0].plot(data)
label(axes[0], 'Raw Data')
axes[1].acorr(data, maxlags=data.size-1)
label(axes[1], 'Matplotlib Autocorrelation')
tsaplots.plot_acf(data, axes[2])
label(axes[2], 'Statsmodels Autocorrelation')
pd.tools.plotting.autocorrelation_plot(data, ax=axes[3])
label(axes[3], 'Pandas Autocorrelation')
# Remove some of the titles and labels that were automatically added
for ax in axes.flat:
ax.set(title='', xlabel='')
plt.show()
那么,我到底为什么说它们都是正确的呢?他们明显不同!
让我们编写自己的自相关函数来演示什么plt.acorr
是在做:
def acorr(x, ax=None):
if ax is None:
ax = plt.gca()
autocorr = np.correlate(x, x, mode='full')
autocorr /= autocorr.max()
return ax.stem(autocorr)
如果我们用我们的数据绘制它,我们将得到一个或多或少相同的结果plt.acorr
(我没有正确标记滞后,只是因为我很懒):
fig, ax = plt.subplots()
acorr(data)
plt.show()
这是一个完全有效的自相关。这完全取决于你的背景是信号处理还是统计学。
这是信号处理中使用的定义。假设您将处理数据的去趋势化(请注意detrend
夸格在plt.acorr
)。如果你想让它去趋势化,你会明确地要求它(并且可能会做一些比仅仅减去平均值更好的事情),否则不应该假设它。
在统计学中,简单地减去平均值就被认为是您想要消除趋势的方法。
所有其他函数都在相关之前减去数据的平均值,类似于:
def acorr(x, ax=None):
if ax is None:
ax = plt.gca()
x = x - x.mean()
autocorr = np.correlate(x, x, mode='full')
autocorr /= autocorr.max()
return ax.stem(autocorr)
fig, ax = plt.subplots()
acorr(data)
plt.show()
然而,我们仍然有一个很大的差异。这纯粹是一种绘图约定。
在大多数信号处理教科书(无论如何,我已经看过)中,显示了“完全”自相关,使得零滞后位于中心,并且结果在每一侧都是对称的。另一方面,R 有非常合理的惯例,只显示它的一侧。 (毕竟另一边是完全多余的。)统计绘图函数遵循 R 对流,并且plt.acorr
遵循 Matlab 的做法,这是相反的约定。
基本上,你想要这个:
def acorr(x, ax=None):
if ax is None:
ax = plt.gca()
x = x - x.mean()
autocorr = np.correlate(x, x, mode='full')
autocorr = autocorr[x.size:]
autocorr /= autocorr.max()
return ax.stem(autocorr)
fig, ax = plt.subplots()
acorr(data)
plt.show()