因此,我们有如下定义: 我们将不能获取的那些额外的数据称之为不可观测的变量(unobservable variable)。在投币的例子中,唯一可观测的变量(observable variable) 是投币的结果。我们用
z
z
z表示不可观测的变量,用
x
x
x表示可观测的变量,事实上我们有
x
=
f
(
z
)
x = f\left( z \right)
x=f(z)
其中
f
(
⋅
)
f\left( \cdot \right)
f(⋅)是一个确定性函数,他定义不可观测数据的输出。因为我们不能用这种方式对该过程进行建模,所以我们定义输出
X
X
X为指明该过程、由概率分布
P
(
X
=
x
)
P\left( X = x \right)
P(X=x)抽取的随机变量。
如果我们不知道
P
(
X
)
P\left( X \right)
P(X),并想从给定的样本估计,就需要统计学知识了。我们有一个样本
χ
\chi
χ,包含由可观测变量
x
i
x^{i}
xi的概率分布(记为
p
(
x
)
p\left( x \right)
p(x))抽取出的样例,目的是使用样本
χ
\chi
χ构造一个它的近似
p
^
(
x
)
\hat{p}\left( x \right)
p^(x)。 而朴素贝叶斯算法,便是求解该过程的一个算法。
我们设可以观测的条件用伯努利随机变量
C
C
C表示,根据上文,一个最简单的
C
C
C的定义就是观测的结果。我们用
x
x
x表示观测变量向量,
x
x
x的一个简单的例子便是上文投掷硬币时硬币的精准成分,硬币的最初位置,投币的力量与方向,硬币的落地点的情况等等。则根据贝叶斯规则,我们有如下公式:
p
(
C
∣
x
)
=
p
(
C
)
p
(
x
∣
C
)
p
(
x
)
p\left( \left. C \right|x \right) = \frac{p\left( C \right)p\left( \left. x \right|C \right)}{p\left( x \right)}
p(C∣x)=p(x)p(C)p(x∣C)
如何理解这个公式?我们还拿掷硬币的例子来说。假设我们投掷了1000次硬币,我们利用某些手段精确的得到了这1000次掷硬币时每次硬币的精准成分,硬币的最初位置,投币的力量与方向,硬币的落地点的情况以及每次掷硬币的结果;当我们掷硬币第1001次时,在观测结果之前,我们已经得到这次掷硬币时硬币的精准成分,硬币的最初位置,投币的力量与方向,硬币的落地点的情况,那么我们如何预测这1001次掷硬币的结果?我们可以根据以往掷硬币的经验,判断在1001次掷硬币时,利用获得到的观测到的硬币的精准成分,硬币的最初位置,投币的力量与方向,硬币的落地点的情况这些因素值与之前投掷时其所有取值完全相同的所有的掷硬币的实验相比较,计算这些取值相同的实验中出现正面的次数和出现反面的次数的比例,而这个比例,便是这次掷硬币结果是正面和反面的概率。用公式表示,则为:
p
(
第
1001
次
掷
硬
币
为
正
面
∣
{
精
准
成
分
,
最
初
位
置
,
…
}
=
{
a
,
b
…
}
)
p\left( \left. 第1001次掷硬币为正面 \right|\left\{精准成分,最初位置,\ldots \right\} = \left\{ a,b\ldots \right\} \right)
p(第1001次掷硬币为正面∣{精准成分,最初位置,…}={a,b…})
=
p
(
掷
硬
币
为
正
面
)
p
(
精
准
成
分
=
a
,
最
初
位
置
=
b
…
∣
掷
硬
币
为
正
面
)
p
(
精
准
成
分
=
a
,
最
初
位
置
=
b
…
)
= \frac{p\left(掷硬币为正面 \right)p\left( \left. 精准成分= a, 最初位置= b\ldots \right| 掷硬币为正面\right)}{p\left(精准成分= a, 最初位置= b \ldots \right)}
=p(精准成分=a,最初位置=b…)p(掷硬币为正面)p(精准成分=a,最初位置=b…∣掷硬币为正面) 如何求解
p
(
精
准
成
分
=
a
,
最
初
位
置
=
b
…
∣
掷
硬
币
为
正
面
)
p\left( \left. 精准成分 = a, 最初位置 = b\ldots \right|掷硬币为正面 \right)
p(精准成分=a,最初位置=b…∣掷硬币为正面)即
p
(
x
∣
C
)
p\left( \left. x \right|C \right)
p(x∣C)呢?我们一般假设每个可观测的条件都是独立的,即
p
(
精
准
成
分
=
a
,
最
初
位
置
=
b
…
∣
掷
硬
币
为
正
面
)
=
p\left( \left. 精准成分 = a,最初位置 = b\ldots \right| 掷硬币为正面\right)=
p(精准成分=a,最初位置=b…∣掷硬币为正面)=
p
(
精
准
成
分
=
a
∣
掷
硬
币
为
正
面
)
×
p
(
最
初
位
置
=
b
∣
掷
硬
币
为
正
面
)
×
…
p\left( \left. 精准成分 = a \right|掷硬币为正面\right) \times p\left( \left. 最初位置 = b \right|掷硬币为正面 \right) \times \ldots
p(精准成分=a∣掷硬币为正面)×p(最初位置=b∣掷硬币为正面)×…
用数学符号表示即令
x
=
(
x
1
,
x
2
…
)
x = \left( x_{1},x_{2}\ldots \right)
x=(x1,x2…),则
p
(
x
∣
C
)
=
p
(
x
1
∣
C
)
p
(
x
2
∣
C
)
…
p\left( \left. x \right|C \right) = p\left( \left. x_{1} \right|C \right)p\left( \left. x_{2} \right|C \right)\ldots
p(x∣C)=p(x1∣C)p(x2∣C)…
而在实际求解问题中,对于分母
p
(
x
)
p\left( x \right)
p(x)我们一般不直接求它,而是根据
∑
i
=
1
n
p
(
C
i
∣
x
)
=
1
\sum_{i = 1}^{n}{p\left( \left. C_{i} \right|x \right) = 1}
i=1∑np(Ci∣x)=1
即
∑
i
=
1
n
p
(
C
i
)
p
(
x
∣
C
i
)
p
(
x
)
=
1
\sum_{i = 1}^{n}{\frac{p\left( C_{i} \right)p\left( \left. x \right|C_{i} \right)}{p\left( x \right)} = 1}
i=1∑np(x)p(Ci)p(x∣Ci)=1
求出所有可能结果带有
p
(
x
)
p\left( x \right)
p(x)的式子,利用概率归一化原理得出每个
p
(
C
i
∣
x
)
p\left( \left.C_{i} \right|x \right)
p(Ci∣x)的概率,并假设该次的结果为
m
a
x
(
p
(
C
i
∣
x
)
)
max(p\left( \left. C_{i} \right|x \right))
max(p(Ci∣x)).
理解了上述问题,下面的概念便不难理解了。
我们将
p
(
C
=
K
)
p\left( C = K \right)
p(C=K)称之为
C
C
C取值为
K
K
K的先验概率(prior probability),与
x
x
x的取值无关。先验概率满足
∑
i
=
1
n
p
(
C
=
K
)
=
1
\sum_{i = 1}^{n}{p\left( C = K \right) = 1}
i=1∑np(C=K)=1
我们将
p
(
x
∣
C
)
p\left( \left. x \right|C \right)
p(x∣C)称之为类似然(class likelihood),是属于
C
C
C的时间具有相关联的观测值
x
x
x的条件概率。
p
(
x
)
p\left( x \right)
p(x)是证据(evidence),是看到观测
x
x
x的边缘概率,不论它是正实例还是负实例。由全概率公式,我们有:
∑
i
=
1
n
p
(
x
∣
C
=
i
)
p
(
C
=
i
)
\sum_{i = 1}^{n}{p\left( \left. x \right|C = i \right)p\left( C = i \right)}
i=1∑np(x∣C=i)p(C=i) 使用贝叶斯规则,组合先验知识和数据告诉我们的,在看到观测
x
x
x之后,计算概念的后验概率(posterior probability)
p
(
C
∣
x
)
p\left( \left. C \right|x \right)
p(C∣x)。
定义 给定一个数据库
D
=
{
x
1
,
x
2
,
x
3
,
…
,
x
n
}
D = \left\{ x_{1},x_{2},x_{3},\ldots,x_{n} \right\}
D={x1,x2,x3,…,xn}和一组类
C
=
{
C
1
,
…
,
C
n
}
C = \{ C_{1},\ldots,C_{n}\}
C={C1,…,Cn}假定每个元组包括一些数值型的属性值
x
i
=
{
x
i
1
,
x
i
2
,
x
i
3
,
…
,
x
in
}
x_{i} = \left\{ x_{i1},x_{i2},x_{i3},\ldots,x_{\text{in}} \right\}
xi={xi1,xi2,xi3,…,xin},每个类也包含数值型属性值
C
j
=
{
C
j
1
,
…
,
C
jn
}
C_{j} = \{ C_{j1},\ldots,C_{\text{jn}}\}
Cj={Cj1,…,Cjn},则分类问题是要分配每个
x
i
x_{i}
xi到满足如下条件的类
C
j
C_{j}
Cj:
对
∀
C
l
∈
C
\forall C_{l} \in C
∀Cl∈C且
C
l
≠
C
j
C_{l} \neq C_{j}
Cl̸=Cj,有:
s
im
(
x
i
,
C
j
)
≥
s
im
(
x
i
,
C
l
)
s\text{im}\left( x_{i},C_{j} \right) \geq s\text{im}\left( x_{i},C_{l} \right)
sim(xi,Cj)≥sim(xi,Cl)
其中
s
im
(
x
i
,
C
j
)
s\text{im}\left( x_{i},C_{j} \right)
sim(xi,Cj)被称为相似性,在实际的计算中往往用距离来表征。距离越近,相似性越大,距离越远,相似性越小。
距离的计算方法有很多种:
设有向量:
a
=
(
a
1
,
a
2
,
a
3
,
…
,
a
n
)
,
b
=
(
b
1
,
b
2
,
b
3
,
…
,
b
n
)
a = \left( a_{1},a_{2},a_{3},\ldots,a_{n} \right),\ b = (b_{1},b_{2},b_{3},\ldots,b_{n})
a=(a1,a2,a3,…,an),b=(b1,b2,b3,…,bn)则:
欧几里得距离(Euclidean Distance):
欧式距离由对应元素间差值平方和的平方根所表示,即
d
(
a
,
b
)
=
(
a
1
−
b
1
)
2
+
(
a
2
−
b
2
)
2
+
…
+
(
a
n
−
b
n
)
2
d\left( a,b \right) = \sqrt{{(a_{1} - b_{1})}^{2} + {(a_{2} - b_{2})}^{2} + \ldots + {(a_{n} - b_{n})}^{2}}\
d(a,b)=(a1−b1)2+(a2−b2)2+…+(an−bn)2
曼哈坦距离(Manhattan Distance):
d
(
a
,
b
)
=
∣
a
1
−
b
1
∣
+
∣
a
2
−
b
2
∣
+
…
+
∣
a
n
−
b
n
∣
d\left( a,b \right) = \left| a_{1} - b_{1} \right| + \left| a_{2} - b_{2} \right| + \ldots + |a_{n} - b_{n}|
d(a,b)=∣a1−b1∣+∣a2−b2∣+…+∣an−bn∣
欧式距离和曼哈坦距离 共同点:
距离为一个非负数值;
自身距离为0;
距离函数具有对称性;
距离函数满足三角不等式。
明考斯基距离(Minkowski Distance) 为欧几里得距离和曼哈坦距离的概化:
d
(
a
,
b
)
=
(
(
a
1
−
b
1
)
p
+
(
a
2
−
b
2
)
p
+
…
+
(
a
n
−
b
n
)
p
)
1
p
,
p
≥
1
d\left( a,b \right) = {(\left( a_{1} - b_{1} \right)^{p} + \left( a_{2} - b_{2} \right)^{p} + \ldots + \left( a_{n} - b_{n} \right)^{p})}^{\frac{1}{p}},p \geq 1
d(a,b)=((a1−b1)p+(a2−b2)p+…+(an−bn)p)p1,p≥1
其中
p
p
p为一个正整数,当
p
=
1
p = 1
p=1时,其表示曼哈坦距离,
p
=
2
p = 2
p=2时,其表示欧几里得距离