我在理解以下编码时遇到问题,并且我是 python 新手:
data_a, data_b, data_C = np.split(original_data.sample(frac=1, random_state=1729),
[int(0.7 * len(original_data)), int(0.9*len(original_data))])
所以我的原始数据集共有 38000 行。在这种分割方法之后data_a
有 26600 行。现在data_b
有 7600 行,data_c
有 3800 行。所以我确实知道原始数据的 70% 将是 26600 行。但为什么data_b
有 7600 行,data_c
3800.我阅读了有关该拆分方法的文档,根据我对编码的理解,我建议对于初始 38000 行中剩余的 30% 数据,90% 将拆分为data_b
那将是 10260 行。不是 7600 行。
如果您想将剩余的 30% 分成 90-10,则必须按顺序进行。尝试这个!
data_a, remaining_data = np.split(original_data.sample(frac=1, random_state=1729),
[int(0.7 * len(original_data))])
data_b, data_C = np.split(remaining_data,[int(0.9 * len(remaining_data))])
data_a.shape, data_b.shape, data_C.shape
output:
((26600,), (10260,), (1140,))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)