scikitlearn

将训练数据拆分为每个类的相同行数

我有一个非常大的数据集大约有 314554097 行和 3 列第三列是班级该数据集有两个类 0 和 1 我需要将数据分为测试数据和训练数据要分割我可以使用的数据 from sklearn cross validation impor

python machinelearning scikitlearn

Pipeline 上的 Sklearn GridSearchCV 用于测试多个变换和估计器

我正在尝试使用 Pipeline 构建 GridSearchCV 并且我想测试变压器和估计器有更简洁的方法吗 pipeline Pipeline imputer SimpleImputer scaler StandardScaler pc

scikitlearn pipeline GridSearchCV

scikit-learn 在另一个特征的标称值组内估算特征的平均值

我想估算一个特征的平均值但仅根据另一列中具有相同类别标称值的其他示例计算平均值我想知道使用 scikit learn 的 Imputer 类是否可以实现这一点这样只会更容易添加到管道中例如使用来自 kaggle 的泰坦尼克号数据

machinelearning scikitlearn Classification mean imputation

Scikit-learn，GMM：从 .means_ 属性返回的问题

所以显然 means 属性返回的结果与我为每个簇计算的平均值不同或者我对返回的内容有错误的理解以下是我编写的代码用于检查 GMM 如何适合我拥有的时间序列数据 import numpy as np import pandas as p

python NumPy scikitlearn GMM

scikit-learn 中每个数据分割的交叉验证指标

我需要为 X test y test 数据的每个分割显式获取交叉验证统计信息因此为了尝试这样做我做了 kf KFold n splits n splits X train tmp y train tmp X test tmp y te

python scikitlearn crossvalidation

检测并删除异常值作为管道的一个步骤

我有一个问题我正在尝试构建自己的类以放入 python 中的管道中但它不起作用我试图解决的问题是多类分类问题我想做的就是在管道中添加一个步骤来检测和删除异常值我找到了这个检测并删除管道Python中的异常值这与我所做的非常相似这

python scikitlearn Regression Classification

保留 Tf-Idf 数据

我想存储 TF IDF 矩阵这样我就不必一直重新计算它我正在使用 scikit learnTfIdfVectorizer 腌制它还是将它存储在数据库中更有效一些背景我正在使用 k means 聚类来提供文档推荐由于经常添加新文档

python machinelearning scikitlearn pickle

Sklearn MLP 特征选择

带交叉验证的递归特征消除 RFEVC 不适用于多层感知器估计器以及其他几个分类器我希望在许多分类器中使用特征选择执行交叉验证来验证其特征选择有什么建议么对于结构化数据有一个独立于模型选择的特征选择称为排列重要性解释得很好he

scikitlearn neuralnetwork Classification featureselection

如何分析混淆矩阵？

当我打印 scikit learn 的混淆矩阵时我收到一个非常巨大的矩阵我想分析什么是真阳性真阴性等我该怎么做这就是我的混淆矩阵的样子我希望更好地理解这一点 4015 336 0 0 0 2 228 2704 0 0 0 0 4

python matrix scikitlearn confusionmatrix

标签编码具有相同类别的多列

考虑以下数据框 import pandas as pd from sklearn preprocessing import LabelEncoder df pd DataFrame data France Italy Belgium Ita

python pandas scikitlearn

如何在Python中计算One Class SVM的AUC？

我在 python 中绘制 OneClassSVM 的 AUC 图时遇到困难我使用 sklearn 生成混淆矩阵例如 tp fp fn tn with fn tn 0 from sklearn metrics import roc cu

python machinelearning scikitlearn AUC

Sklearn 错误，数组有 4 个暗淡。估计器 <=2

我一直在尝试通过 panda 从雅虎财经导入数据然后通过 as matrix 将其转换为数组然后当我将数据输入分类器进行训练时它给了我一个错误 ValueError Found array with dim 4 Estimator e

python3x pandas DataFrame scikitlearn

评估模型给出的准确度不等于 sklearn 分类_报告准确度

我正在使用 sklearnclassification report 来报告测试统计数据该方法的准确率为 42 而模型评估的准确率为 93 哪一个才是真正的准确度造成这种差异的原因是什么模型评价 results model evalu

python tensorflow Keras scikitlearn deeplearning

使用 One-hot 编码标签进行交叉验证时，Keras scikit-learn 包装器的评分指标

我正在实现一个神经网络我想通过交叉验证来评估其性能这是我当前的代码 def recall m y true y pred true positives K sum K round K clip y true y pred 0 1 pos

python machinelearning Keras scikitlearn crossvalidation

用前后值的平均值填充包含 NaN 的单元格

我想用缺失值之前和之后单元格的平均值填充 pandas 数据框中的缺失值因此如果它是 1 NaN 3 则 NaN 值将为 2 因为 1 3 2 我找不到任何方法可以用 Pandas 或 Scikit learn 来做到这一点有什么办法

python pandas scikitlearn

特定 pandas 列作为 df.apply 输出新列中的参数

给定一个 pandas DataFrame 如下 import pandas as pd from sklearn metrics import mean squared error df pd DataFrame from dict ro

python pandas NumPy scikitlearn

高效测地线最近邻

从纬度经度数据以弧度为单位开始我尝试有效地找到最近的 n 个邻居最好是测地线 WGS 84 距离现在我正在使用sklearn 球树使用半正矢距离 KD Tres 仅采用 minkowskian 距离这很好而且快速 3 4 秒即

python scipy scikitlearn Geospatial

绘制图像分类模型的混淆矩阵

我用 keras 构建了一个图像分类 CNN 虽然模型本身运行良好它可以正确预测新数据但我在绘制模型的混淆矩阵和分类报告时遇到问题我使用 ImageDataGenerator 训练了模型 train path DATASET TRAI

python scikitlearn Keras

random_state在train_test_split和分类器中的作用

基于这个答案 Scikit learn 中的随机状态伪随机数如果我使用相同的整数比如 42 random state 然后每次进行训练测试分割时它应该给出相同的分割即每次运行期间训练中的数据实例相同测试时的数据实例相同 But

python scikitlearn

Sklearn LinearSVC库中惩罚参数和损失参数的区别

我对 SVM 理论不太熟悉我在 python 中使用这个 LinearSVC 类 http scikit learn org stable modules generated sklearn svm LinearSVC html skle

python scikitlearn SVM Libsvm liblinear