回归
“回归”就是“回归本质”的意思。用一个函数去拟合一组数据
(xi,yi)
,随着数据越来越多,用来拟合的这个曲线就越来越接近真实的情况。这里
xi
可以是一个向量, 假设
xi∈Rn
, 若用线性回归的方法, 首先把它扩展为
n+1
维, 用来拟合的参数
θ∈Rn+1
; 其中
x0=1
, 对应
θ0
为截距. , 所以函数拟合的是一个
n+2
维的超平面(
θT⋅x−y=0
). 拟合后得到的超平面, 输出前
n+1
维的输入, 可以得到一个输出
y
.
* linear regression:用直线拟合
* logistci regression:用一种曲线拟合(曲线的形状和sigmoid有什么联系?)
Logistics regression
θT⋅x是linear regression,套一层sigmoid将输出映射到
(0,1)
。
假设训练集为
(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))
;输入特征为
x(i)∈Rn+1
(我们对符号的约定如下:特征向量
x(i)
的维度为
n+1
,其中
x0=1
,对应截距项)。由于logistic回归是针对二分类问题的,因此类标记
y(i)∈{0,1}
。假设函数(hypothesis function) 如下:
hθ(x)=11+e−θT⋅x,θ∈Rn+1
Interpretion:
hθ(x(i))=Sigmoid(θT⋅x(i))
是
y(i)=1
的概率,
1−hθ(x(i))
是
y(i)=0
的概率(
吴恩达,Logistic Regression: Optimization Objective I)
训练
θ
,使其能最小化代价函数:
J(θ)=−1m[∑i=1mloghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
为什么cost function定义为这样?
* 首先的确可以定义为squared error的形式,即
J(θ)=1m∑i=1m(hθ(x)−y(i))2
但是该曲线not convex,即很难找到全局最优。定义为上面的形式则convex。
* 对某个
(x(i),y(i))
分类讨论:
1. 当
y(i)=1
时,
cost→∞
when
hθ(x(i))→0
;
cost→0
when
hθ(x(i))→1(i.e. y(i))
2. 当
y(i)=0
时,
cost→0(i.e. y(i))
when
hθ(x(i))→0
;
cost→∞
when
hθ(x(i))→1
* 用
log
函数的意义在于,它就是好用,而且convex。(这里我也不明白,就先这么记着)