我们应该从 featuretools 的 DFS 中排除目标变量吗？

2023-12-29

当将数据帧作为实体集中的实体传递并对其使用 DFS 时，我们是否应该从 DFS 中排除目标变量？我有一个模型，在手动尝试传统的特征选择方法并使用特征工具来查看是否提高了分数后，该模型的 roc_auc 分数为 0.76。因此，在包含目标变量的实体集上使用了 DFS。令人惊讶的是，roc_auc 分数上升到 0.996，准确度上升到 0.9997，所以我对分数表示怀疑，因为我将目标变量也传递到深度特征合成中，并且与目标相关的信息可能已泄漏到训练中？我假设正确吗？

深度特征综合和特征工具确实允许您将目标保留在实体集中（以便使用其历史值创建新特征），但您需要设置“时间索引”并使用“截止时间”来执行此操作无标签泄漏。

您可以使用时间索引来指定保存每行中的数据已知时间的值的列。该列使用指定time_index使用创建实体时的关键字参数entity_from_dataframe.

然后，您在跑步时使用截止时间ft.dfs() or ft.calculate_feature_matrix()要指定最后一个时间点，您应该在计算特征矩阵的每一行时使用数据。特征计算将仅使用截止时间（包括截止时间）之前的数据。因此，如果这个截止时间早于目标的时间索引值，则不会出现标签泄漏。

您可以在以下文档中详细了解这些概念处理时间 https://featuretools.alteryx.com/en/stable/getting_started/handling_time.html.

如果你根本不想与目标打交道，你可以

您可以使用 pandas 将其完全从数据框中删除，然后再将其设为实体。如果它不在实体集中，则不能用于创建特征。
您可以设置drop_contains中的关键字参数ft.dfs to ['target']。这会阻止创建任何包含字符串的功能'target'.

无论您选择上述哪个选项，仍然可以直接通过 DFS 传递目标列。如果将目标添加到截止时间数据帧，它将传递到生成的特征矩阵。这可能很有用，因为它可以确保目标列与其他功能保持对齐。您可以通过传递标签的示例here https://docs.featuretools.com/automated_feature_engineering/handling_time.html?highlight=label#running-dfs-with-cutoff-times在文档中。

使用辅助时间索引的高级解决方案

有时，单个时间索引不足以表示连续信息在两个不同时间已知的数据集。当目标是列时，通常会发生这种情况。为了处理这种情况，我们需要使用“辅助时间索引”。

Here https://www.kaggle.com/sjrothsc/using-featuretools-for-missed-appointments是来自 Kaggle 内核的一个示例，用于预测患者何时会错过与医生的预约，其中使用了辅助时间索引。数据集有一个scheduled_time，当预约被安排时，并且appointment_day，这是约会实际发生的时间。我们想告诉Featuretools，在安排预约时，一些信息（例如患者的年龄）是已知的，但其他信息（例如患者是否实际出现）直到预约当天才知道。

为此，我们创建一个appointments具有辅助时间索引的实体如下：

es = ft.EntitySet('Appointments')
es = es.entity_from_dataframe(entity_id="appointments",
                              dataframe=data,
                              index='appointment_id',
                              time_index='scheduled_time',
                              secondary_time_index={'appointment_day': ['no_show', 'sms_received']})

这表示大多数列都可以在时间上使用索引scheduled_time，但变量no_show and sms_received直到辅助时间索引中的值才能使用。

然后我们做出预测scheduled_time将我们的截止时间设置为

cutoff_times = es['appointments'].df[['appointment_id', 'scheduled_time', 'no_show']]

通过将该数据帧传递到 DFS，no_show列将不受影响地通过，但是虽然历史值no_show仍然可以用来创建特征。一个例子是这样的ages.PERCENT_TRUE(appointments.no_show)或“过去没有出现过的每个年龄段的人的百分比”。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

featuretools

我们应该从 featuretools 的 DFS 中排除目标变量吗？的相关文章

创建对象时出现错误“存在显式转换（是否缺少强制转换）”：

我有兴趣学习 OOP 概念在尝试使用继承的简单程序时我注意到这个错误我不明白为什么会出现这个错误我给出了下面简单的 C 代码 class Animal public void Body Console WriteLine Anima
*onbeforeunload* 是否在 Safari (macOS) 上缓存？

我添加了一个事件监听器beforeunload 按照惯例 https developer mozilla org en docs Web API WindowEventHandlers onbeforeunload在我的 JS ReactJ
重新使用现有 Microsoft Identity 用户表时密码（哈希）不匹配

我们有一个现有的 SQL 数据库微软身份表最初由 ASP NET Core 应用程序生成我们还有一个 ASP NET 4 应用程序它也使用 Microsoft Identity 我们希望 ASP NET 4 应用程序能够使用同一数据库
subversion中“让深度粘性”有什么作用？

我很难找到有关在 SVN 工作副本上使用粘性深度设置的行为的明确文档在 SVN 中当使用更新到修订版本对话框时会有一个使深度粘性复选框使深度粘性和非粘性之间有哪些有效区别当深度为粘性时您每次更新时都将使用相同的设置进行更
PHP以真正的二进制方式读取二进制文件

我在谷歌上搜索了我的问题但没有找到解决方案我想读取一个文件并将缓冲区转换为二进制例如 10001011001011001 如果我从文件中有这样的东西 bmoov lmvhd tF tF K T trak tkh d tF tF K e
Symfony 2：安装并启用 intl 扩展

我在用着XAMPP for Windows并决定尝试一下Symfony 2 当我到达时Symfony Configuration它建议我安装并启用的页面intl 我尝试阅读PEAR s and PECL s指导因为我完全0关于这个主题开
std::ostringstream 覆盖初始化字符串

以下代码会生成 0004567 铿锵 7 https repl it agustinf ostringstream bug or anti feature main cpp include
连接到 Github 时“无法生成 ssh”，但 ssh -T [电子邮件受保护] 有效？

我很难让 Github Netbeans 正常工作我想将 ssh 与 git 在 Windows 7 上结合使用来提交或克隆项目但我不断收到此错误消息 git clone email protected cdn cgi l email
NSOutlineView 缩进问题

我使用 NSOutlineView 对象来表示文件结构并发现它不会正确缩进任何可扩展的子项尽管它会缩进不可扩展的子项这是一张图片来说明我的意思在此示例中 AnotherFolder 是 Folder2 的子级但它没有与其他缩进文件
F# 中的代码分析

作为一名 C 开发人员我从 Microsoft 的代码分析中受益匪浅然而在 F 中代码分析似乎并不是开发周期的一个组成部分我花了一段时间才在 F 项目上启用 CA 但这博客有帮助 http blog nikosbaxevanis
将 div 水平和垂直居中，并在调整父级大小时保持居中[重复]

这个问题在这里已经有答案了我想始终将 div 水平和垂直居中我可以减少增加窗口的宽度 div 将通过始终保持在窗口的中心进行响应 cent height 50px width 50px background color black m
是否可以使用 winmerge 查看 cygwin 的 git diff？

我喜欢在 cygwin 上使用 git 但唯一的缺点是当我想这样做时git difftool我无法使用任何有用的东西 git diff大多数时候对我来说很好但有时我想使用 winmerge 通过以下方式查看这些差异git difftool
想要将特定的 div 向右移动

我想将特定的 div 移到右侧以便左侧的 div 获得更多空间来显示其中的内容我在 CSS 中尝试了一些东西但我知道我做错了在 CSS 中我 login box width 200px margin left 50px 您可以在该
查找所有子项完全匹配的父项 ID

场景假设我们有一组代表四个关键概念的数据库表实体类型例如帐户客户等实体例如上述实体类型的实例同类群组命名组群组成员组成群组成员的实体群组的规则是一个队列始终至少有一名队列成员群组成员对于该群组必须是唯一的即实体
Tensorflow、多标签精度计算

我正在研究多标签问题并试图确定模型的准确性我的型号 NUM CLASSES 361 x tf placeholder tf float32 None IMAGE PIXELS y tf placeholder tf float32 No
如何在 iOS 应用程序中阻止屏幕截图

我想构建一个应用程序在其中我想阻止用户的屏幕截图就像在 Netflix 应用程序中一样它应该像在 Netflix 中一样返回黑屏截图现在我无法得到任何有关此事的信息不知道Netflix是怎么处理的有什么方法可以检测块中捕获的图像

随机推荐

提高大小超过 40 GB (Sql Server 2005) 且每月增长约 3GB 的数据库性能的技巧

当前的数据库或我们的项目本月已超过 40 GB 平均每月增长约 3 GB 现在所有表都已最佳规范化并且已使用正确的索引但随着规模的增长即使是像 select count 1 from table 这样的基本查询也需要更多的时间来触
spring hibernate没有获取参数的值

我尝试使用以下命令进行 API 调用post通过邮递员的方法到我的 Spring Boot 应用程序这是输入 username name password 1234 age 12 salary 5000 role 1 这是控制器中的代码
仅选择在特定时间发生的行

我已经读过C csv和datetime列是一个object type 我想得到每一行23 45 00无论日期如何都在其中我想拥有datetime作为索引我想转换datetimedatetime64 ns 的索引我相信 pandas
Knockout JS单选按钮点击事件重置选择

我在单选按钮列表上绑定了选中和单击事件但每当单击单选按钮时选择都不会保留我一定做错了什么如果你们能指出我正确的方向我真的很感激请参阅在这里小提琴 http jsfiddle net rasikasampath jhHkD
Postgres子查询，按子查询排序

如果我有一个查询例如 select from tbl where id in 10 20 9 4 返回的结果可能按以下顺序排列 4 9 10 20 但是如果想要维护传递到初始查询中的列表的顺序怎么办你会如何处理这个问题最终我在这里使
哪里可以下载Python3.3的Scipy？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想在Windows中安装Scipy for Python3 3 但我在以下链接中只找到了Python 3 2版本之前的Scipy安装文件 http
Django 1.7：如何使ManyToManyField成为必需的？

我有一个 Django 模型ManyToManyField在里面我需要要求用户在此字段中至少选择一个 M2M 值我尝试设置blank False到M2M领域但没有帮助 class Skill models Model name mod
无法在 .NET Framework 4.7.2 项目中安装 Nuget 包

In my WPF项目使用 NET Framework 4 7 2 in VS2017 我正在尝试安装互操作MSUtil dll https www nuget org packages Interop MSUtil dll 按照建议的 N
@ActiveProfile 和 spring.profiles.active

这是我的 applicationContext 定义的一部分用于检索一些属性
用于检测 Objective-C 中类属性可用性的宏

Xcode 8 引入了 Objective C 类属性我想向 Objective C 库添加一个不过我希望该库仍然可以使用 Xcode 7 进行编译我可以在编译时进行可用性检查吗就像是 if hasFeature objc cla
将 PHP 数组字符串转换为数组

我有一个数组 myArray array key1 gt value1 key2 gt value2 我将其保存为变量 fileContents var dump myArray 如何将变量转换回用作常规数组 echo fileConten
隔离存储文件异常

我尝试创造IsolatedStorageFile使用以下代码 IsolatedStorageFile isf IsolatedStorageFile GetUserStoreForApplication 但我得到以下异常 IsolatedS
Pandas，带有 datetime64 列的数据框，按小时查询

我有一个熊猫数据框df其中有一列由datetime64 e g
当我将鼠标悬停在使用 jquery 的图标上时如何显示简单的文本框

我在 html 中有一个输入字段该字段旁边有一个帮助图标当我将鼠标悬停在图标上时我希望显示一条简单的文本消息并且该文本消息应该在悬停时消失有什么方法可以使用 jquery 来做到这一点吗图标将是一个简单的图像上面写着一个小问号
如何使用 C# 连接到 Azure MySQL In App localdb

我尝试了几种方法都没有成功 OdbcConnection MySqlConnection 使用 PHP 它在一分钟之内就可以工作但我想使用 Web 服务 asmx 访问数据库 Web 服务正在返回正确的信息 MYSQLCONNSTR lo
从 XML 文件中提取内容

我有一个 C 应用程序它使用按钮生成文件目前我想使用 C 从 XML 文件中提取内容并将其作为字符串传递例如在我的 XML 文件中我有一个标签名称我想使用 C 从 XML 文件中提取名称我应该如何去实现它以下是我当前拥有的
无法替换 Python pandas 数据框中的特殊字符

我正在 Windows 中使用 Python 3 5 我有一个数据框其中 titles str类型列包含标题的标题其中一些具有特殊字符例如我正在尝试用空格替换这些 using pandas replace 我尝试过各种迭代但没有任
在我的 Onsenui 应用程序中添加登录页面

我想在进入主页之前设置一个登录页面我怎样才能在这条指令之前做到这一点
如何根据文化信息获取日期和时间格式？

我想要的是如果文化是 en US 那么 string dateFormat MM dd yyyy string timeFormat 24 00 hrs 如果文化是 en GB 那么 string dateFormat dd mmyyyy
我们应该从 featuretools 的 DFS 中排除目标变量吗？

当将数据帧作为实体集中的实体传递并对其使用 DFS 时我们是否应该从 DFS 中排除目标变量我有一个模型在手动尝试传统的特征选择方法并使用特征工具来查看是否提高了分数后该模型的 roc auc 分数为 0 76 因此在包含目标变量

我们应该从 featuretools 的 DFS 中排除目标变量吗？

我们应该从 featuretools 的 DFS 中排除目标变量吗？ 的相关文章

随机推荐

热门标签

我们应该从 featuretools 的 DFS 中排除目标变量吗？的相关文章