在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么?

2023-12-21

我有一个包含四个样本、约 25,000 个特征和两个标签的数据集(它是一个基因计数数据集)。分割数据的好方法是什么?当我运行模型时,我得到的准确度为1在训练集上,但是0在验证集上。

引导值得尝试吗?

Labels = [0,1,0,1]

X_train,X_test,y_train,y_test = train_test_split(data,labels,test_size=0.3,random_state=42)

有什么建议吗?


我想说你不可能希望只用四个样本来训练模型(如果你要分割,甚至更少)。

虽然先验评估所需样本数量并非微不足道,并且取决于许多因素,其中一个主要因素是数据质量,但我过去读过的经验法则是:

  • 每类 1,000 个样本
  • 至少是特征数量的 10 倍

虽然这些肯定过于简单化,但我猜如果样本数量为 4 个或更少,您肯定不走运。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么? 的相关文章

随机推荐