1、部分特征如人的性别有男女,国家有中国、美国、法国等,并不是连续的,而是离散的、无序的,通常我们需要对其进行特征数字化
2、假如某个样本(某个人),他的特征是这样的【‘男’、‘中国’、‘乒乓球’】,我们可以用【0、0、4】来表示,但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的(运动数据是任意排序的)
3、One-Hot编码,又称一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效
4、表示方法
a)两个特征N=2:男 ==》10 ,女 ==》01
b)三个特征N=3:中国 ==》100,美国==》010,法国==》001
c)运动特征N=4:足球==》1000,篮球==》0100,羽毛球==》0010,乒乓球==》0001
所以当一个样本为【男、中国、乒乓球】的时候,它完整的特征数字化的结果为
【1,0,1,0,0,0,0,0,1】