我有一个包含四个样本、约 25,000 个特征和两个标签的数据集(它是一个基因计数数据集)。分割数据的好方法是什么?当我运行模型时,我得到的准确度为1
在训练集上,但是0
在验证集上。
引导值得尝试吗?
Labels = [0,1,0,1]
X_train,X_test,y_train,y_test = train_test_split(data,labels,test_size=0.3,random_state=42)
有什么建议吗?
我想说你不可能希望只用四个样本来训练模型(如果你要分割,甚至更少)。
虽然先验评估所需样本数量并非微不足道,并且取决于许多因素,其中一个主要因素是数据质量,但我过去读过的经验法则是:
- 每类 1,000 个样本
- 至少是特征数量的 10 倍
虽然这些肯定过于简单化,但我猜如果样本数量为 4 个或更少,您肯定不走运。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)