使用sklearn进行多标签特征选择

2024-05-09

我希望使用 sklearn 对多标签数据集执行特征选择。我想要获得最终的功能集across标签，然后我将在另一个机器学习包中使用它。我打算使用我看到的方法here https://stackoverflow.com/questions/16400722/feature-selection-for-multilabel-classification-scikit-learn/16421186#16421186，它分别为每个标签选择相关特征。

from sklearn.svm import LinearSVC
from sklearn.feature_selection import chi2, SelectKBest
from sklearn.multiclass import OneVsRestClassifier
clf = Pipeline([('chi2', SelectKBest(chi2, k=1000)),
                ('svm', LinearSVC())])
multi_clf = OneVsRestClassifier(clf)

然后，我计划使用以下方法提取每个标签所包含特征的索引：

selected_features = []
for i in multi_clf.estimators_:
    selected_features += list(i.named_steps["chi2"].get_support(indices=True))

现在，我的问题是，如何选择要包含在最终模型中的选定特征？我可以使用每一个独特的功能（其中包括仅与一个标签相关的功能），或者我可以做一些事情来选择与更多标签相关的功能。

我最初的想法是创建一个给定特征被选择的标签数量的直方图，并根据目视检查确定阈值。我担心的是这种方法是主观的。是否有更原则的方法使用 sklearn 对多标签数据集执行特征选择？

根据本文的结论paper http://ceur-ws.org/Vol-1094/bioasq2013_submission_8.pdf:

[...]根据平均值或最大值对特征进行排序所有标签的卡方得分导致大多数最好的分类器同时使用较少的特征。

然后，为了选择一个好的功能子集，您只需执行以下操作（类似）：

from sklearn.feature_selection import chi2, SelectKBest

selected_features = [] 
for label in labels:
    selector = SelectKBest(chi2, k='all')
    selector.fit(X, Y[label])
    selected_features.append(list(selector.scores_))

// MeanCS 
selected_features = np.mean(selected_features, axis=0) > threshold
// MaxCS
selected_features = np.max(selected_features, axis=0) > threshold

注意：在上面的代码中，我假设 X 是某个文本矢量化器（文本的矢量化版本）的输出，Y 是每个标签一列的 pandas 数据框（因此我可以选择该列Y[label]）。此外，还有一个应事先固定的阈值变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用sklearn进行多标签特征选择的相关文章

Access / Word 2010 VBA 邮件合并尝试打开 [文件夹名称].mdb 而不是 ACCDB 源

我们正在尝试从 Access 中自动执行邮件合并过程单击按钮后 VBA 将运行指定当前数据库 accdb 作为数据源并运行 SQL 具体代码如下 Set up Word Dim objWord As Object Set objWord
在哪里存储 Java 的 .properties 文件？

The Java教程 http download oracle com javase tutorial essential environment properties htmlon using Properties 讨论如何使用 Prop
在 GWT 中，在任何主机页标记上添加事件处理程序

我想为任何标签添加 MouseOver 事件处理程序举个例子我想为旧版 HTML 页面中的每个锚点页面添加事件处理程序继GWT指南 http code google com webtoolkit doc 1 6 DevGuideUse
没有 OAuth 的 Spring Security JWT

最近我开始学习如何使用oauth 2 0 jwt配置spring boot 我有一个问题是否可以使用spring boot security jwt避免oauth 2 0 是的可以使用JWT无需使用标准化的功能OAuth 2 0 flo
使用 crypt() 加密

我目前正在做一个非常安全的登录系统但我是 crypt 函数的新手需要一些快速帮助我在注册过程中使用 crypt 加密密码字符串并将其保存到数据库中但是我如何在登录过程中解密密钥或者我应该怎么做或者是否可以对提交的密码字符串进行
带重定向标准流的 C# + telnet 进程立即退出

我正在尝试用 C 做一个脚本化 telnet 项目有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向和处理其 stdin stdout 流问题是生成的 telnet 进程在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default
Android ScrollView fillViewport 不工作

我有一个简单的布局名称位于顶部按钮位于屏幕底部或者超出该按钮以防我添加更多项目所以我使用带有 LinearLayout 的 ScrollView 如下所示
NGinx $proxy_add_x_forwarded_for 和 real_ip_header

我在 NGinx 下有一个 web 应用程序和另一个前端负载均衡器如下所示 x x x x IP 地址客户端 a a a a gt LB b b b b gt NGX c c c c gt WEBAPP d d d d 这是我的 NGi
使用 Crypto++ 获取 ECDSA 签名

我必须使用 Crypto 在变量中获取 ECDSA 签名我在启动 SignMessage 后尝试获取它但签名为空我怎样才能得到它你看过 Crypto wiki 吗上面有很多东西椭圆曲线数字签名算法 http www cryptop
从 Azure 应用服务连接到 MongoDB Atlas 集群

我在 Azure 上有一个 Web 应用程序它连接到 Atlas cloud mongodb com 上托管的 MongoDB 集群我想使用 Atlas 这样我就不必关心 MongoDb 配置问题是我的集群连接超时我必须在我的 mo
是否可以在 C# 中强制接口实现为虚拟？

我今天遇到了一个问题试图重写尚未声明为虚拟的接口方法的实现在这种情况下我无法更改接口或基本实现而必须尝试其他方法但我想知道是否有一种方法可以强制类使用虚拟方法实现接口 Example interface IBuilder
匿名结构体作为返回类型

下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检
使用泛型全面实现特征

我正在通过实现矩阵数学来练习 Rust 但遇到了一些障碍我定义了我认为与矩阵相关的特征 trait Matrix
Android：如何检测手机设置中的语言已更改

我如何检测我的手机语言是否已更改例如 Facebook 应用程序将向我们宣布 please wait we preparing your language i used myString Locale getDefault getDisp
保存符号方程以供以后使用？

From here http www mathworks com help releases R2011a toolbox symbolic brvfu8o 1 html brvfxem 1 我正在尝试求解这样的符号方程组 syms x y
当ScrollView滚动到底部时加载更多数据

我有一个带有动态加载内容的滚动视图有时可能会有很多内容所以我想在用户滚动到底部时加载更多内容我搜索了合适的方法发现了两种 onScrollChanged and getScrollY 但我不知道如何将它用于我的目的请给我一些建议
如果产品重量超过1000克，如何以公斤为单位显示

在 Storefront 主题中我使用下面的代码将格式化重量从 1000g 更改为 1kg add action woocommerce after shop loop item title show weight 10 function
android ndk 硬件调试内存

背景我对 C 很有经验对 Android 和 Java 还很陌生但这是编程的环境问题我已经用 ANSI C 开发了一个管理应用程序可以移植到任何操作系统只需在依赖于操作系统的代码中添加 UI 即可它使用相当多的内存特别是对于
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do

随机推荐

(Java) 在 Mac OS X 上以编程方式访问“系统根目录”下的 SSL 证书

我正在编写一个 Java 应用程序它可以通过远程 Https 站点进行 REST Api 调用远程站点由受信任的证书签名它在 Windows 上运行良好但由于 SSL 证书问题在 OS X 上运行时遇到问题我做了一些挖掘发现原
使用 shell_exec Powershell 输出到 PHP 变量

我有一个 powershell 脚本它输出视频文件持续时间运行这个脚本给了我预期的结果 Folder C my path to folder File sample1 1280 720 mp4 LengthColumn 27 objSh
在 vba 上将值粘贴到另一个工作簿工作表上时出现问题

我有以下代码以便从工作簿复制工作表并将其粘贴到另一个名为 Control de precios 的工作簿的工作表 1 上 Sub createSpreadSheet Set NewBook Workbooks Add With NewBo
将 emoji 替换为适当的 java 代码

我正在开发一个简单的java程序它可以接受这样的字符串停止你违反了法律但是现在你并将每个表情符号替换为适当的 java 字符我不知道该怎么称呼他们这是一个例子汽车表情符号将替换为 uD83D uDE97 这允许我有一个
Java - 同步方法导致程序大幅减慢

我正在尝试了解线程和同步我做了这个测试程序 public class Test static List
大小相同的表格单元格填充包含表格的整个宽度

有没有办法使用 HTML CSS 具有相对大小调整使一行单元格拉伸其所在表格的整个宽度单元格的宽度应该相等并且外表的大小也是动态的 table width 100 目前如果我不指定固定大小单元格只是自动调整大小以适应其内容您甚至不
静态类变量与外部变量相同，只是具有类作用域吗？

在我看来静态类变量与外部变量相同因为你只需要declare它在static int x extern int x语句并在其他地方实际定义它通常在 cpp 文件中静态类变量 h file class Foo static int x
对 JavaScript 中的 while 循环感到困惑

我可能在这里有点厚重但请回答我这个问题考虑以下代码 a 1 while a lt 6 console log a a 如果我运行这个我会在控制台中得到从 1 到 6 的值然后是另一个 6 现在看看这个 a 1 while a lt
如何检查 ActiveX dll 是否已注册？

我有一个正在注册多个 dll 的安装程序需要知道这是否成功这似乎对我有用 http www nirsoft net utils registered dll view html http www nirsoft net utils re
在 Matlab 中显示有理数

我有两个整数 m n 它们一起形成 m n 形式的有理数现在我只想以这种理性的形式在 Matlab 中显示它们我可以通过这样做来做到这一点 char sym m n 所以如果例如m 1 n 2 Matlab将显示1 2 然而如果m
如何防止 iPhone 4 在添加到主屏幕时截断我的标题？

我的网页标题很长当添加到 iPhone 旧版本的主屏幕时整个标题在确认对话框中可见当我添加到 iPhone 4 的主屏幕时标题在第 12 个符号之后被切断有没有办法阻止这种剪切让 iPhone 默认显示完整标题显然会有一个无证
Linux 中 AF_UNIX 数据报消息的最大大小是多少？

目前我已达到 130688 字节的硬限制如果我尝试在一条消息中发送更大的内容我会收到一条消息ENOBUFS error 我已经检查过net core rmem default net core wmem default net core
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
使用 ecs-cli 在 AWS 上部署 docker 时遇到问题

我在 ECS 上有一个存储库已使用 ecs cli 创建了一个集群 ecs cli configure region us west 2 profile
sed-删除不包含模式的行

我很惊讶我在 SO 上找不到与此类似的问题如何使用 sed 删除所有不包含特定模式的行例如我有这个文件 cat kitty dog giraffe panda lion tiger 我想要一个 sed 命令当调用该命令时它将删除所
访问“if”语句之外的变量

我怎样才能使insuranceCost以外可用if陈述 if this comboBox5 Text Third Party Fire and Theft double insuranceCost 1 在 if 语句之外定义它 double
angular.copy() 和 JSON.parse(JSON.stringify()) 之间的区别？

有人可以解释 angular copy 和 JSON parse JSON stringify 之间的区别吗有吗您会推荐使用什么 angular fromJson angular toJson 与 JSON parse JSON str
可以混合使用 JVM 语言吗？即：Groovy 和 Clojure

我知道你可以轻松地混合groovy java clojure java 无论什么JvmLang java 这是否也意味着我也可以让 clojure 和 groovy 代码进行交互如果我使用 Grails 或 jRoR 我也可以在该环境中使
如何在网格视图的单元格中插入换行符？

我想知道如何在网格视图的单元格中添加换行符现在我把 1 1 1 然而这呈现为 1 1 1 如何修复换行符以便每个数字显示在自己的行上 Add HtmlEncode False to asp BoundField并且在正文中应该有
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640

使用sklearn进行多标签特征选择

使用sklearn进行多标签特征选择 的相关文章

随机推荐

热门标签

使用sklearn进行多标签特征选择的相关文章