一、数据处理基础
1.1特征编码:
第1列表示年龄,是一个数值特征
第2列表示性别,是一个只有一位(0,1)的特征
0 -> Male, 1 -> Female
第3列表示国籍,目前有197个国家
1 -> US, 2 -> China, …
可以用一个整数来表示,或者用一个
独热向量来表示, 如US: [1,0, ….,0]
数值特征不适合表示类别,因此一般使用独热编码
国家编码从1开始,1~197,因为实际国籍有可能不填(对应0)
使用199维特征向量表达一个人的特征
1.2文本处理:
步骤:文本切分——>统计词频——>独热编码
二、RNN模型
三、LSTM模型
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)