Pearson相关系数是用来衡量两个变量之间的相关性,由下式给出
p
=
c
o
v
(
X
,
Y
)
σ
(
X
)
σ
(
Y
)
p = \frac{cov(X,Y)}{\sigma(X)\sigma(Y)}
p=σ(X)σ(Y)cov(X,Y) p在数值上在[-1,1]之间
当p=0时,说明两个变量不想关;
当p>0时,两个变量正相关,而且p越大正相关性越强;
当p<0时,两个变量负相关,而且p越小负相关性越强;
上式中
c
o
v
(
X
,
Y
)
cov(X,Y)
cov(X,Y)表示的是两个变量
X
、
Y
X、Y
X、Y的协方差,
σ
(
X
)
\sigma(X)
σ(X)表示的是变量X的标准差差,
σ
(
Y
)
\sigma(Y)
σ(Y)表示的是变量Y的标准差$。
2.协方差 covariance
协方差也是用来衡量两个变量之间的相关性的,当两个变量之间的协方差是0时不相关(两个变量相互独立),大于0时正相关,小于0时负相关。例如身高和体重之间的协方差就是一个正数,因为身高和体重是正相关的。 协方差由下式给出:
c
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
cov(X,Y)=E[(X-E(X))(Y-E(Y))]
cov(X,Y)=E[(X−E(X))(Y−E(Y))] 其中E()表示变量的数学期望,eg:E(X)表示变量X的数学期望,
E
[
X
]
=
Σ
μ
i
x
i
,
μ
i
是
x
i
E[X]=\Sigma \mu_i x_i,\mu_i 是 x_i
E[X]=Σμixi,μi是xi的权重,如果每个样本的权重都相等的话则写为:
E
[
X
]
=
Σ
x
i
n
E[X]=\frac{\Sigma x_i}{n}
E[X]=nΣxi。
此外协方差的等价式
c
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
=
E
[
X
Y
−
X
E
(
Y
)
−
Y
E
(
X
)
+
E
(
X
)
E
(
Y
)
]
=
E
(
X
Y
)
−
2
E
(
X
)
E
(
Y
)
+
E
(
X
)
E
(
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
\begin{aligned} cov(X,Y) &= E[(X-E(X))(Y-E(Y))]\\ &=E[XY - XE(Y) - YE(X) + E(X)E(Y)]\\ &=E(XY)-2E(X)E(Y) + E(X)E(Y)\\ &=E(XY)-E(X)E(Y) \end{aligned}
cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−2E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)
协方差示例 有三个人的身高体重数据,X表示身高,Y表示体重
X身高(cm): 100,150,200 Y体重(kg): 50,100,150
则身高和体重的协方差
c
o
v
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
则身高和体重的协方差cov(X,Y)=E(XY)-E(X)E(Y)
则身高和体重的协方差cov(X,Y)=E(XY)−E(X)E(Y) 其中:
E
(
X
)
=
1
3
(
100
+
150
+
200
)
=
150
E(X)=\frac{1}{3}(100+150+200)=150
E(X)=31(100+150+200)=150,
E
(
Y
)
=
100
,
E
(
X
Y
)
=
1
3
(
100
∗
50
+
150
∗
100
+
200
∗
150
)
=
50000
3
E(Y)=100,E(XY)=\frac{1}{3}(100*50+150*100+200*150)=\frac{50000}{3}
E(Y)=100,E(XY)=31(100∗50+150∗100+200∗150)=350000
c
o
v
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
=
50000
3
−
150
∗
100
=
5000
3
.
cov(X,Y)=E(XY)-E(X)E(Y)=\frac{50000}{3}-150*100=\frac{5000}{3}.
cov(X,Y)=E(XY)−E(X)E(Y)=350000−150∗100=35000.
3. 方差 variance
在考察单个变量的分布特征时有方差(variance)的概念,方差是一个大于等于0的实数,方差为0表示变量分布完全集中在一个点上,方差越大变量的分布越分散。方差由下式给出:
v
a
r
(
X
)
=
E
[
(
X
−
E
(
X
)
)
2
]
var(X)=E[(X-E(X))^2]
var(X)=E[(X−E(X))2] 观察可以看到方差是协方差的一个特例,即cov(X,X)=var(X).$
记
T
m
×
n
为目标图
(
t
a
r
g
e
t
)
记T_{m\times n}为目标图(target)
记Tm×n为目标图(target),
S
M
×
N
S_{M\times N}
SM×N为源搜索图(source),
S
x
,
y
S_{x,y}
Sx,y为S中以点
(
x
,
y
)
(x,y)
(x,y)为左上角的和T大小相同的子图,
R
(
M
−
m
+
1
)
×
(
N
−
n
+
1
)
R_{(M-m+1)\times (N-n+1)}
R(M−m+1)×(N−n+1)为匹配的结果图,则
R
(
x
,
y
)
=
c
o
v
(
S
x
,
y
,
T
)
σ
(
S
x
,
y
)
σ
(
T
)
R(x,y)=\frac{cov(S_{x,y},T)}{\sigma(S_{x,y})\sigma(T)}
R(x,y)=σ(Sx,y)σ(T)cov(Sx,y,T)
其中
c
o
v
(
S
x
,
y
,
T
)
=
E
(
S
x
,
y
T
)
−
E
(
S
x
,
y
)
E
(
T
)
=
Σ
i
=
1
m
Σ
j
=
1
n
S
x
,
y
(
i
,
j
)
T
(
i
,
j
)
m
n
−
S
x
,
y
ˉ
T
ˉ
\begin{aligned} cov(S_{x,y},T) &=E(S_{x,y}T)-E(S_{x,y})E(T)\\ &=\frac{\Sigma_{i=1}^{m}\Sigma_{j=1}^{n}S_{x,y}(i,j)T(i,j)}{mn} - \bar{S_{x,y}}\bar{T} \end{aligned}
cov(Sx,y,T)=E(Sx,yT)−E(Sx,y)E(T)=mnΣi=1mΣj=1nSx,y(i,j)T(i,j)−Sx,yˉTˉ
S
x
,
y
ˉ
=
Σ
i
=
1
m
Σ
j
=
1
n
S
x
,
y
(
i
,
j
)
m
n
\bar{S_{x,y}}=\frac{\Sigma_{i=1}^{m}\Sigma_{j=1}^{n}S_{x,y}(i,j)}{mn}
Sx,yˉ=mnΣi=1mΣj=1nSx,y(i,j)
T
ˉ
=
Σ
i
=
1
m
Σ
j
=
1
n
T
(
i
,
j
)
m
n
\bar{T} = \frac{\Sigma_{i=1}^{m}\Sigma_{j=1}^{n}T(i,j)}{mn}
Tˉ=mnΣi=1mΣj=1nT(i,j)
σ
(
S
x
,
y
)
=
v
a
r
(
S
x
,
y
)
=
Σ
i
=
1
m
Σ
j
=
1
n
(
S
x
,
y
(
i
,
j
)
−
S
x
,
y
ˉ
)
2
m
n
\sigma(S_{x,y})=\sqrt{var(S_{x,y})}=\sqrt{\frac{\Sigma_{i=1}^{m}\Sigma_{j=1}^{n}{(S_{x,y}(i,j)-\bar{S_{x,y}}})^2}{mn}}
σ(Sx,y)=var(Sx,y)=mnΣi=1mΣj=1n(Sx,y(i,j)−Sx,yˉ)2
σ
(
T
)
=
v
a
r
(
S
x
,
y
)
=
Σ
i
=
1
m
Σ
j
=
1
n
(
T
(
i
,
j
)
−
T
ˉ
)
2
m
n
\sigma(T)=\sqrt{var(S_{x,y})}=\sqrt{\frac{\Sigma_{i=1}^{m}\Sigma_{j=1}^{n}{(T(i,j)-\bar{T}})^2}{mn}}
σ(T)=var(Sx,y)=mnΣi=1mΣj=1n(T(i,j)−Tˉ)2
观察式子:
R
(
x
,
y
)
=
c
o
v
(
S
x
,
y
,
T
)
σ
(
S
x
,
y
)
σ
(
T
)
R(x,y)=\frac{cov(S_{x,y},T)}{\sigma(S_{x,y})\sigma(T)}
R(x,y)=σ(Sx,y)σ(T)cov(Sx,y,T)
可以发现
σ
(
T
)
\sigma(T)
σ(T)是固定的,模板给定之后值就确定了,只需要计算一次。
σ
(
S
x
,
y
)和
c
o
v
(
S
x
,
y
,
T
)
\sigma(S_{x,y})和cov(S_{x,y},T)
σ(Sx,y)和cov(Sx,y,T)的计算过程中一直要用到
S
x
,
y
ˉ
\bar{S_{x,y}}
Sx,yˉ,如果直接去计算这个平均值将会有很多计算是浪费掉的,可以用积分图来加速这个过程