在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？

2023-12-21

我有一个包含四个样本、约 25,000 个特征和两个标签的数据集（它是一个基因计数数据集）。分割数据的好方法是什么？当我运行模型时，我得到的准确度为1在训练集上，但是0在验证集上。

引导值得尝试吗？

Labels = [0,1,0,1]

X_train,X_test,y_train,y_test = train_test_split(data,labels,test_size=0.3,random_state=42)

有什么建议吗？

我想说你不可能希望只用四个样本来训练模型（如果你要分割，甚至更少）。

虽然先验评估所需样本数量并非微不足道，并且取决于许多因素，其中一个主要因素是数据质量，但我过去读过的经验法则是：

每类 1,000 个样本
至少是特征数量的 10 倍

虽然这些肯定过于简单化，但我猜如果样本数量为 4 个或更少，您肯定不走运。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

datascience

traintestsplit

在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？的相关文章

与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

Mac 键盘快捷键在 iOS 模拟器上不起作用

All the mac keyboard short cuts like Cmd Q Quit Simulator app Cmd K Toggle keyboard hide show in Simulator etc has stopp
使用 Linq PredicateBuilder 嵌套 OR

我正在使用谓词生成器编写以下代码 IEnumerable
使用 date-fns 进行时区转换

我正在尝试在基于 React 的网页中使用 date fns tz 但无法使以下用例正常工作我在表单中输入了一个日期该表单应提交到以本地时区存储数据的后端用户在GMT 2时区选择2021年2月1日 14 00在 UI 中这与1612
模型驱动表单 - IE11 上的输入占位符问题

我已将我的应用程序从 Angular 2 x 更新到 Angular 4 0 0 从现在开始我遇到输入类型文本表单控件的以下问题在 IE11 上当接收到焦点时占位符将被删除表单控件将设置为 dirty 并将 pristine 设置
如何在重新启动之间保留 GoogleAppEngineLauncher 的本地数据存储？

我在 Mac OS X 上使用 GoogleAppEngineLauncher GAEL 我的应用程序的数据存储状态在服务器重新启动甚至 GAEL 重新启动之间保持不变但如果我重新启动数据存储就会重置是否有一个设置可以防止此重置或者
使用 NSComparisonResult 对 CoreData 实体进行排序

我有这个 distanceSorter h distanceSorter m interface CLLocation DistanceComparison NSComparisonResult compareToLocation CLLo
多个 Vue 实例需要多个 Vuex 模块实例

我正在将 Vue 集成到表单网站上这意味着如果页面上有多个表单我必须创建该 Vue 应用程序的多个实例所有实例共享同一个 Vuex 存储我创建了一个 Vuex 模块以便每个 Vue 实例都可以拥有自己的本地状态我的主要目标是防止
如何在 Hive 数组中搜索项目？

我使用 Hive 创建了一个包含以下字段的表 ID 大整数 MSISDN 字符串天丁月小号今年性别微小关系状态 TINYINT 教育弦 LIKES AND PREFERENCES STRING 通过以下 SQL 命令填充数据 In
在 JavaFX 客户端中播放 h265 HEVC

我有一个小型 JavaFX 应用程序可以在 Windows Linux 客户端上播放一些 GoPro 视频过去我使用的是GoPro 4 我将视频下载到客户端并从本地存储播放像这样 File file new File AnyVideo
原生 PHP 中具有基本授权的 Soap 标头

我需要连接到 TeraData SOAP API 该 API 现在需要与登录凭据一起发送授权基本标头我不知道如何解决这个问题添加基本授权标头时我在 SoapUI 中获得了工作权限请任何人帮助我直接获取代码这是 SoapUI 发送
给定一个带有文件名的文本文件，如何在当前目录的子目录中查找文件？

我在不同的子目录中有一堆具有不同名称的文件我用这些名称创建了一个 txt 文件但我无法创建find使用该文件进行工作我看过关于创建列表的问题不使用的帖子find 虽然不明白原因建议我很难举出一个例子因为我不知道如何重现目录结构
Paypal 与 Google 应用程序引擎-python 集成

我必须将 paypal 与我的应用程序集成该应用程序是使用 python 构建在应用程序引擎补丁上的我在网上搜索并发现 paypal 与谷歌应用程序引擎集成中报告的一些问题如下所示 http groups google com gro
Firebase 的云功能 - getaddrinfo ENOTFOUND

尝试使用 Paypal 的 API 发出请求PayPal 节点 SDK https github com paypal PayPal node SDK exports requestPayment functions https onReq
致命错误导致没有结果出现（Mysqli）

我在脚本中遇到此错误我认为这导致搜索栏无法工作致命错误在第 89 行对 web stud xxx Mobile app previousquestions php 中的非对象调用成员函数 bind param 它指向的行是这一行 st
将图标添加到 Visual Studio 代码扩展中的活动栏

我是 VSC 扩展开发的新手我从扩展 hello world 开始我想向活动栏添加一个图标并在单击它时收到通知我将这些行添加到 package json viewsContainers activitybar id package
React-native Android 仅设置纵向手机否则平板电脑显示横向和纵向

在这种情况下我在我的应用程序中遇到了一个小问题我设置了默认肖像但现在我想在选项卡中显示肖像和风景而不仅仅是手机在手机中仅显示肖像强制更新为肖像我点击了此链接但收到此错误并且我不明白如何创建文件夹来放置数据我点击了这个链接
对接口编程，而不是 php 中的实现

主要设计原则之一是针对接口编程而不是实现这在 php 或任何其他弱类型语言中是否可能 EDIT 我可能没有把问题写得清楚我并不是说 php 不能使用接口它显然可以我的意思是针对接口而不是实现进行编程的设计原则在弱类型语言中是否变
作为服务器和客户端运行应用程序

我想让我的电脑既是服务器又是客户端这是我的代码 import java net class tester static int pos 0 static byte buffer new byte 100 static void Clien
如何从数组中的数组中删除空值？

我正在使用 Google 表格和 Google Apps 脚本我用过 getRange getValues从工作表中获取用户电子邮件收到的数组示例 user1 user2 user3 user4 user5 user6 如您所见每行
在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？

我有一个包含四个样本约 25 000 个特征和两个标签的数据集它是一个基因计数数据集分割数据的好方法是什么当我运行模型时我得到的准确度为1在训练集上但是0在验证集上引导值得尝试吗 Labels 0 1 0 1 X train

在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？

在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？ 的相关文章

随机推荐

热门标签

在只有 4 个样本和大量特征的情况下进行测试训练分割的好方法是什么？的相关文章