在Featuretools中计算多个训练窗口的特征

2024-02-06

我有一张包含客户和交易的表。有没有办法获取过去 3/6/9/12 个月过滤的功能?我想自动生成功能:

  • 过去 3 个月的跨性别者数量
  • ....
  • 过去 12 个月内跨性别者数量
  • 过去 3 个月的平均跨性别者
  • ...
  • 过去 12 个月的平均跨性别者

我尝试过使用training_window =["1 month", "3 months"],,但它似乎没有为每个窗口返回多个功能。

Example:

import featuretools as ft
es = ft.demo.load_mock_customer(return_entityset=True)

window_features = ft.dfs(entityset=es,
   target_entity="customers",
   training_window=["1 hour", "1 day"],
   features_only = True)

window_features

我是否必须单独执行各个窗口然后合并结果?


正如您所提到的,在 Featuretools 0.2.1 中,您必须为每个训练窗口单独构建特征矩阵,然后合并结果。对于您的示例,您将按如下方式执行此操作:

import pandas as pd
import featuretools as ft
es = ft.demo.load_mock_customer(return_entityset=True)
cutoff_times = pd.DataFrame({"customer_id": [1, 2, 3, 4, 5],
                             "time": pd.date_range('2014-01-01 01:41:50', periods=5, freq='25min')})
features = ft.dfs(entityset=es,
                  target_entity="customers",
                  agg_primitives=['count'],
                  trans_primitives=[],
                  features_only = True)
fm_1 = ft.calculate_feature_matrix(features, 
                                   entityset=es, 
                                   cutoff_time=cutoff_times,
                                   training_window='1h', 
                                   verbose=True)

fm_2 = ft.calculate_feature_matrix(features, 
                                   entityset=es, 
                                   cutoff_time=cutoff_times,
                                   training_window='1d', 
                                   verbose=True)
new_df = fm_1.reset_index()
new_df = new_df.merge(fm_2.reset_index(), on="customer_id", suffixes=("_1h", "_1d"))

然后,新的数据框将如下所示:

customer_id COUNT(sessions)_1h  COUNT(transactions)_1h  COUNT(sessions)_1d COUNT(transactions)_1d
1           1                   17                      3                 43
2           3                   36                      3                 36
3           0                   0                       1                 25
4           0                   0                       0                 0
5           1                   15                      2                 29
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在Featuretools中计算多个训练窗口的特征 的相关文章

  • 如何将深度特征合成应用于单个表

    处理后 我的数据是一张表 其中几列是特征 一列是标签 我想用featuretools dfs帮助我预测标签 是否可以直接执行 或者我需要将单个表拆分为多个 可以在单个表上运行 DFS 举个例子 如果你有一个 pandas 数据框df带索引
  • 如何使用 SIFT/SURF 作为机器学习算法的特征?

    我正在研究自动图像注释问题 其中我试图将标签与图像相关联 为此 我尝试使用 SIFT 特征进行学习 但问题是所有的 SIFT 特征都是一组关键点 每个关键点都有一个二维数组 而且关键点的数量也很大 我的学习算法通常只接受一个 有多少个以及如
  • GLCM 结果中的黑线

    这是GLCM矩阵的结果 GLCM图像中的黑色水平线和垂直线是什么意思 他们有问题吗 N numel unique img img is uint8 glcm graycomatrix img NumLevels N imshow glcm
  • 使用mapReduce和hadoop提取包含特定值的行

    我是开发映射缩减功能的新手 考虑我有csv包含四列数据的文件 例如 101 87 65 67 102 43 45 40 103 23 56 34 104 65 55 40 105 87 96 40 现在 我想摘录说 40 102 40 10
  • 从头开始简单的语音识别

    我发现与我的问题相关的最相似的问题是 简单的语音识别方法 https stackoverflow com questions 8467589 simple speech recognition methods 但是三年过去了 答案还不够 我
  • 使用 OpenCV 从小图像中提取点描述符

    我正在尝试提取不同的点描述符 SIFT SURF ORB BRIEF 来构建视觉词袋 问题似乎是我使用的图像非常小 12x60px 使用密集提取器 我可以获得一些关键点 但是在提取描述符时 没有提取任何数据 这是代码 vector
  • 变量值列表的 Tensorflow 特征列

    从 TensorFlow 文档中可以清楚地了解如何使用tf feature column categorical column with vocabulary list创建一个特征列 它将一些字符串作为输入并输出一个单热向量 例如 voca
  • RandomForestRegressor 和 feature_importances_ 错误

    我正在努力从我的 RandomForestRegressor 中提取特征重要性 我得到 属性错误 GridSearchCV 对象没有属性 功能重要性 有谁知道为什么没有属性吗 根据文档应该存在这个属性 完整代码 from sklearn e
  • 如何在 scikit-learn(用于计算机视觉)中使用自己的数据集?

    如何在 scikit learn 中使用我自己的数据集 Scikit教程总是以加载他的数据集 数字数据集 花卉数据集 为例 http scikit learn org stable datasets index html http scik
  • 在Featuretools中计算多个训练窗口的特征

    我有一张包含客户和交易的表 有没有办法获取过去 3 6 9 12 个月过滤的功能 我想自动生成功能 过去 3 个月的跨性别者数量 过去 12 个月内跨性别者数量 过去 3 个月的平均跨性别者 过去 12 个月的平均跨性别者 我尝试过使用tr
  • 如何通过将另外两个 tf.feature_column 相乘来创建 tf.feature_column?

    在Tensorflow中已经有一个通过交叉列创建特征的函数tf feature column crossed column 但更多的是针对类别数据 数字数据怎么样 例如 已经有 2 列 age tf feature column numer
  • 确定隐马尔可夫模型中隐藏状态的数量

    我正在学习隐马尔可夫模型 用于对 t 个图像帧序列中的运动进行分类 假设每个帧有 m 个维度的特征 然后我将它聚集成一个符号 用于可观察的符号 我为 k 类创建 k 个不同的 HMM 模型 那么 如何确定每个模型的隐藏状态数量以优化预测 顺
  • 使用 tsfresh 仅选择一定数量的顶级特征

    如何使用 tsfresh 选择时间序列的前 n 个特征 我可以决定要提取的主要特征的数量吗 基于 Chaitra 的上述评论和这个答案 https stackoverflow com questions 62991201 tsfresh g
  • GLCM 图像中的黑色空间

    我正在尝试使用 Haralick 描述的 GLCM 能量 均匀性等 计算我拥有的一系列 4 波段 R G B NIR 航空照片的一些纹理测量值 我已经在一个子集上尝试过这个 但最终得到的图像大部分是空白的 我目前的理解是 它与灰度和leve
  • 有没有办法获取 R 中随机森林树中用于分类的实例?

    The getTreeR 中的 randomForest 包中的函数显示随机森林中使用的特定树的结构 这是 iris 数据集的示例 library randomForest data iris rf lt randomForest Spec
  • 如何将逻辑回归模型获得的系数映射到pyspark中的特征名称

    我使用 databricks 列出的管道流构建了一个逻辑回归模型 https docs databricks com spark latest mllib binary classification mllib pipelines html
  • 筛选提取-opencv

    我正在尝试开始使用 C OpenCv 进行筛选特征提取 我需要使用 SIFT 提取特征 将它们在原始图像 例如一本书 和场景之间进行匹配 然后计算相机姿势 到目前为止我已经找到了这个算法 http opencv itseez com doc
  • 如何在 Apache Spark 中通过 DStream 使用特征提取

    我有通过 DStream 从 Kafka 到达的数据 我想进行特征提取以获得一些关键词 我不想等待所有数据的到达 因为它是可能永远不会结束的连续流 所以我希望以块的形式执行提取 如果准确性会受到一点影响 对我来说并不重要 到目前为止 我整理
  • Featuretools 从多列创建索引

    我正在尝试使用以下方法从数据帧创建一个实体entity from dataframe功能工具中的功能 如果索引包含多个列 是否有一种方法来定义索引 我不确定是否需要列表 元组或其他数据结构 这是代码 es es entity from da
  • 在按顺序读取的多个特征文件上训练 Keras 模型以节省内存

    当我尝试读取大量功能文件时 我遇到了内存问题 见下文 我想我应该分割训练文件并按顺序读取它们 做到这一点的最佳方法是什么 x train np load path features x train npy y train np load p

随机推荐

  • Scala 中并行集合的效率/可扩展性(图)

    因此 我一直在 Scala 中使用并行集合来处理我正在开发的图形项目 我已经定义了图形类的基础知识 它目前正在使用scala collection mutable HashMap关键在哪里Int其值为ListBuffer Int 邻接表 编
  • OOD / OOP 练习曲 / 代码练习

    我已经在网上搜索了一段时间了 我正在寻找用于 OOD 实践 以及一些内部 TDD 研讨会 的小样本练习 如果有一个地方可以满足这一需求 请指出它 并关闭此问题 限制条件 与语言无关的现实世界问题 小 最多需要一到两个小时才能解决的问题 或者
  • 无法在Java / C++中为外部应用程序设置always-on-top

    我正在寻找解决方案 使外部应用程序 不是像记事本或 calc exe 这样的 Windows 应用程序 在按下 Java GUI 中的按钮后始终保持在最上面 我在 C 中使用此代码来获取桌面上所有打开的窗口 并将其进程 ID PID 与发送
  • 可更新视图 - SQL Server 2008

    关于可更新数据库视图的问题 我正在阅读有关该主题的一些 MSDN 文档 并且遇到以下限制 任何修改 包括 UPDATE INSERT 和 DELETE 语句 都必须仅引用一个基表中的列 我只是想确保我理解该限制 我想在我的几个媒体评论项目中
  • 多边形中的点

    我正在尝试解决一些 SPOJ 问题https www spoj pl problems FSHEEP https www spoj pl problems FSHEEP 我们必须找出点是否在多边形内部 正如我们所看到的 它不是凸多边形 问题
  • 如何更改pairs()的轴位置?

    默认情况下 pairs 将轴放在图的所有边上 在边之间交替 但是 我将数据集之间的相关性放在上三角形中 所以我想像这样调整轴位置 我需要设置哪些参数 您可以自定义配对功能 如果你看一下代码 就会发现轴是在 2 个嵌套的 for 循环内绘制的
  • 为什么 RGB 使用 6 个十六进制数字?

    据我所知 RGB 用两个十六进制数字编码颜色 对应于红色 绿色和蓝色分量 例如 ff0000 是纯红色 据我了解 每个十六进制数字代表 0 15 之间的数字 或 4 位信息 但是如何用 32 位来表示每种颜色呢 为什么使用两位数字表示红色
  • 如何在 Mercurial 上 git reset --hard HEAD?

    我是一名 Git 用户 正在尝试使用 Mercurial 事情是这样的 我做了一个hg backout在我想恢复的变更集上 这创建了一个新头 因此 hg 指示我合并 我认为回到 默认 合并后 它告诉我我仍然必须提交 然后我注意到在解决合并中
  • Bash 脚本 - 变量内容作为命令运行

    我有一个 Perl 脚本 它给我一个定义的随机数列表 这些随机数对应于文件的行 接下来我想使用从文件中提取这些行sed bin bash count cat last queries txt wc l var perl test pl te
  • 如何通过拖动顶部的 div 来调整其大小?

    我想在拖动两个 div 之间的部分时调整 div 的大小 在搜索中我发现this http jsfiddle net gaby Bek9L 1779 但我不知道如何使这个水平而不是可用的垂直拖动 我的 div 看起来像 div div di
  • Install4j:有没有办法用包含占位符的文本覆盖欢迎消息?

    我需要覆盖install4j欢迎消息 其中包含我需要在运行时解析的占位符文本 将从属性文件中读取替换值 welcomeLabel3 Text 0 another text 1 无法向系统消息添加占位符 您必须指定整个消息 但是 您可以使用安
  • 如何从 javascript 文件(而不是 vue 组件)获取 vuex 状态

    我正在使用 vuex 2 1 1 并让事情在 vue 单文件组件中工作 然而 为了避免 vue 单文件组件中出现太多问题 我将一些函数移至utils js我将其导入到 vue 文件中的模块 在这个utils js我想阅读 vuex 状态 我
  • 初学者:AVR C++ Atmel Studio 6

    我在确定我可以访问哪些库时遇到问题 我知道我可以使用 Atmel Studio 6 IDE 用 C 对微控制器 Atmega328p 进行编程 但是 我无法弄清楚我可以访问哪些库的记录在哪里 例如 我可以使用 STL 例如向量 双端队列 吗
  • Google Maps API V3 -> 利用 MarkerCluster 但簇本身是否特定于绘制的多边形/区域?

    好吧 让我以我已经创建了很多谷歌地图的事实作为这个问题的序言 但它们是严格的标记和表示路线的折线以及一些处理程序交互 现在我希望基本上显示一张世界地图 主要是北美 我想用我拥有的一些纬度 经度将这片大陆分成我预定义的区域 使用这些区域 我想
  • CSS 面包屑箭头指向左侧

    我发现这个 css 面包屑指向右侧 我想指向左侧 相信我 我一遍又一遍地尝试 但没有成功 请有人告诉我该怎么做 div span display inline block position relative background 88b7d
  • 改造 - 更改 BaseUrl

    我有一个场景 我必须使用相同的基本 URL 调用 API 例如www myAPI com但以不同的baseUrl 我有一个 Retrofit 2 的实例 它是通过Builder return new Retrofit Builder bas
  • 将 UL 在 DIV 内垂直居中

    我有以下内容 div style background Red height 100px ul li a href Home a li ul div 我想将 ul 垂直居中在 div 中 但我不知道如何 小提琴演示 http jsfiddl
  • 如何在C++03中用sprintf正确替换sprintf_s?

    sprintf s是该函数的 Microsoft 实现sprintf他们修补了一个缺陷 添加了一个参数来获取函数限制写入的边界值 等效的引入C 11 snprintf 但在这里 我们谈论的是C 03 syntax 签名 count char
  • 为什么 Unity 会忽略非静态公共字段的初始化值?

    我在用着InvokeRepeating http docs unity3d com ScriptReference MonoBehaviour InvokeRepeating html调用游戏中的方法 我打电话InvokeRepeating
  • 在Featuretools中计算多个训练窗口的特征

    我有一张包含客户和交易的表 有没有办法获取过去 3 6 9 12 个月过滤的功能 我想自动生成功能 过去 3 个月的跨性别者数量 过去 12 个月内跨性别者数量 过去 3 个月的平均跨性别者 过去 12 个月的平均跨性别者 我尝试过使用tr