imputation

scikit-learn 在另一个特征的标称值组内估算特征的平均值

我想估算一个特征的平均值但仅根据另一列中具有相同类别标称值的其他示例计算平均值我想知道使用 scikit learn 的 Imputer 类是否可以实现这一点这样只会更容易添加到管道中例如使用来自 kaggle 的泰坦尼克号数据

machinelearning scikitlearn Classification mean imputation

我尝试填充 pyspark 数据框中缺失的数据 pyspark 数据框如下所示 latitude longitude timestamplast name 4 905615 2019 08 01 00 00 00 1 51 819645 2

PySpark imputation

我试图用该列的中位数替换矩阵每一列中的 NA 但是当我尝试使用lapply or sapply我收到一个错误当我使用 for 循环并且一次更改一列时代码有效我做错了什么 Example set seed 1928 mat lt mat

r matrix na Median imputation

我有一个半稀疏矩阵所有单元格的一半是空白的 na 所以当我尝试运行小鼠时它会尝试对所有单元格进行操作我只对其中的一个子集感兴趣问题在下面的代码中如何让老鼠只对前两列进行操作是否有一种干净的方法可以使用 row lag

r imputation rmice

我是包装新手mice但我试图从 R 中估算 5 个数据集popmis然后拟合一个lmer model with 每一个和最后pool 穿过他们我觉得pool 函数于mice 不适用于lmer 来电来自lme4包对吗如果是这样的话有没

r missingdata lme4 imputation rmice