featureengineering

KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用

python clusteranalysis kmeans datascience featureengineering

我有一本字典其中键作为我的客户 ID 值作为我的电影 ID 尽管客户已经多次观看同一部电影但我希望将其制作为一部电影这里我需要将我的字典转换为二进制数据在所有行中我需要客户 ID 和列作为电影 ID 如果客户看过电影则给出 1

python pandas featureengineering

这是推荐系统中处理稀疏特征例如一些ID特征的典型方式我正在寻找一种方便的方法来为 TensorFlow 管道准备数据我做了很多搜索但尚未找到好的解决方案下面是似乎接近我需要的但尚未工作 See 下面的部分数据文件如下 csv

tensorflow machinelearning recommendationengine featureengineering