Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将训练数据拆分为每个类的相同行数
我有一个非常大的数据集 大约有 314554097 行和 3 列 第三列是班级 该数据集有两个类 0 和 1 我需要将数据分为测试数据和训练数据 要分割我可以使用的数据 from sklearn cross validation impor
python
machinelearning
scikitlearn
Pipeline 上的 Sklearn GridSearchCV 用于测试多个变换和估计器
我正在尝试使用 Pipeline 构建 GridSearchCV 并且我想测试变压器和估计器 有更简洁的方法吗 pipeline Pipeline imputer SimpleImputer scaler StandardScaler pc
scikitlearn
pipeline
GridSearchCV
scikit-learn 在另一个特征的标称值组内估算特征的平均值
我想估算一个特征的平均值 但仅根据另一列中具有相同类别 标称值的其他示例计算平均值 我想知道使用 scikit learn 的 Imputer 类是否可以实现这一点 这样只会更容易添加到管道中 例如 使用来自 kaggle 的泰坦尼克号数据
machinelearning
scikitlearn
Classification
mean
imputation
Scikit-learn,GMM:从 .means_ 属性返回的问题
所以显然 means 属性返回的结果与我为每个簇计算的平均值不同 或者我对返回的内容有错误的理解 以下是我编写的代码 用于检查 GMM 如何适合我拥有的时间序列数据 import numpy as np import pandas as p
python
NumPy
scikitlearn
GMM
scikit-learn 中每个数据分割的交叉验证指标
我需要为 X test y test 数据的每个分割显式获取交叉验证统计信息 因此 为了尝试这样做 我做了 kf KFold n splits n splits X train tmp y train tmp X test tmp y te
python
scikitlearn
crossvalidation
检测并删除异常值作为管道的一个步骤
我有一个问题 我正在尝试构建自己的类以放入 python 中的管道中 但它不起作用 我试图解决的问题是多类分类问题 我想做的就是在管道中添加一个步骤来检测和删除异常值 我找到了这个检测并删除管道Python中的异常值这与我所做的非常相似 这
python
scikitlearn
Regression
Classification
保留 Tf-Idf 数据
我想存储 TF IDF 矩阵 这样我就不必一直重新计算它 我正在使用 scikit learnTfIdfVectorizer 腌制它还是将它存储在数据库中更有效 一些背景 我正在使用 k means 聚类来提供文档推荐 由于经常添加新文档
python
machinelearning
scikitlearn
pickle
Sklearn MLP 特征选择
带交叉验证的递归特征消除 RFEVC 不适用于多层感知器估计器 以及其他几个分类器 我希望在许多分类器中使用特征选择 执行交叉验证来验证其特征选择 有什么建议么 对于结构化数据 有一个独立于模型选择的特征选择 称为排列重要性 解释得很好he
scikitlearn
neuralnetwork
Classification
featureselection
如何分析混淆矩阵?
当我打印 scikit learn 的混淆矩阵时 我收到一个非常巨大的矩阵 我想分析什么是真阳性 真阴性等 我该怎么做 这就是我的混淆矩阵的样子 我希望更好地理解这一点 4015 336 0 0 0 2 228 2704 0 0 0 0 4
python
matrix
scikitlearn
confusionmatrix
标签编码具有相同类别的多列
考虑以下数据框 import pandas as pd from sklearn preprocessing import LabelEncoder df pd DataFrame data France Italy Belgium Ita
python
pandas
scikitlearn
如何在Python中计算One Class SVM的AUC?
我在 python 中绘制 OneClassSVM 的 AUC 图时遇到困难 我使用 sklearn 生成混淆矩阵 例如 tp fp fn tn with fn tn 0 from sklearn metrics import roc cu
python
machinelearning
scikitlearn
AUC
Sklearn 错误,数组有 4 个暗淡。估计器 <=2
我一直在尝试通过 panda 从雅虎财经导入数据 然后通过 as matrix 将其转换为数组 然后当我将数据输入分类器进行训练时 它给了我一个错误 ValueError Found array with dim 4 Estimator e
python3x
pandas
DataFrame
scikitlearn
评估模型给出的准确度不等于 sklearn 分类_报告准确度
我正在使用 sklearnclassification report 来报告测试统计数据 该方法的准确率为 42 而模型评估的准确率为 93 哪一个才是真正的准确度 造成这种差异的原因是什么 模型评价 results model evalu
python
tensorflow
Keras
scikitlearn
deeplearning
使用 One-hot 编码标签进行交叉验证时,Keras scikit-learn 包装器的评分指标
我正在实现一个神经网络 我想通过交叉验证来评估其性能 这是我当前的代码 def recall m y true y pred true positives K sum K round K clip y true y pred 0 1 pos
python
machinelearning
Keras
scikitlearn
crossvalidation
用前后值的平均值填充包含 NaN 的单元格
我想用缺失值之前和之后单元格的平均值填充 pandas 数据框中的缺失值 因此 如果它是 1 NaN 3 则 NaN 值将为 2 因为 1 3 2 我找不到任何方法可以用 Pandas 或 Scikit learn 来做到这一点 有什么办法
python
pandas
scikitlearn
特定 pandas 列作为 df.apply 输出新列中的参数
给定一个 pandas DataFrame 如下 import pandas as pd from sklearn metrics import mean squared error df pd DataFrame from dict ro
python
pandas
NumPy
scikitlearn
高效测地线最近邻
从纬度 经度数据 以弧度为单位 开始 我尝试有效地找到最近的 n 个邻居 最好是测地线 WGS 84 距离 现在我正在使用sklearn 球树使用半正矢距离 KD Tres 仅采用 minkowskian 距离 这很好而且快速 3 4 秒即
python
scipy
scikitlearn
Geospatial
绘制图像分类模型的混淆矩阵
我用 keras 构建了一个图像分类 CNN 虽然模型本身运行良好 它可以正确预测新数据 但我在绘制模型的混淆矩阵和分类报告时遇到问题 我使用 ImageDataGenerator 训练了模型 train path DATASET TRAI
python
scikitlearn
Keras
random_state在train_test_split和分类器中的作用
基于这个答案 Scikit learn 中的随机状态 伪随机数 如果我使用相同的整数 比如 42 random state 然后每次进行训练 测试分割时 它应该给出相同的分割 即每次运行期间训练中的数据实例相同 测试时的数据实例相同 But
python
scikitlearn
Sklearn LinearSVC库中惩罚参数和损失参数的区别
我对 SVM 理论不太熟悉 我在 python 中使用这个 LinearSVC 类 http scikit learn org stable modules generated sklearn svm LinearSVC html skle
python
scikitlearn
SVM
Libsvm
liblinear
«
1 ...
33
34
35
36
37
38
39
...45
»