scikitlearn

随机森林回归中的样本大小

如果理解正确当计算随机森林估计量时通常会应用引导法这意味着仅使用来自样本 i 的数据构建树 i 并通过替换选择我想知道sklearn的样本大小是多少随机森林回归器 http scikit learn org stable modul

python machinelearning scikitlearn RandomForest

使用 TfidfVectorizer scikit-learn 的自定义词汇表时出现问题

我尝试在 scikit learn 中使用自定义词汇来执行一些聚类任务但得到了非常奇怪的结果当不使用自定义词汇表时程序运行正常我对集群创建感到满意不过我已经确定了一组我想用作自定义词汇表的单词大约 24 000 个这些单词存

python scikitlearn tfidf vocabulary

Python导入错误：无法从“sklearn.externals”导入名称“6”

我正在使用 numpy 和 mlrose 到目前为止我所写的是 import numpy as np import mlrose 但是当我运行它时它会出现一条错误消息 File C Users

python NumPy scikitlearn pythonimport six

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

在 Tfidf fit transform 中我们仅使用参数 X 而没有使用 y 来拟合数据集这是正确的吗我们仅为训练集的参数生成 tfidf 矩阵我们没有使用 ytrain 来拟合模型那我们如何对测试数据集进行预测呢 https

python scikitlearn NLP tfidfvectorizer

获取 RFECV scikit-learn 中的功能

受此启发 http scikit learn org stable auto examples feature selection plot rfe with cross validation html sphx glr auto exam

python scikitlearn crossvalidation rfe

Sklearn CountVectorizer：将表情符号保留为单词

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是运行时 vect Count

python scikitlearn NLP countvectorizer

scikit learn：未选择所需数量的最佳功能 (k)

我试图使用卡方 scikit learn 0 10 选择最佳特征我首先从总共 80 个训练文档中提取 227 个特征然后从这 227 个特征中选择前 10 个特征 my vectorizer CountVectorizer analyz

python machinelearning scikitlearn chisquared

SKLearn Naive Bayes：在 tfidf 矢量化后添加特征

因此我的任务是训练一个电话记录模型以下代码执行此操作一些背景信息 x 是一个字符串列表每个第 i 个元素是一个完整的转录本 y 是布尔值列表表示调用的结果是正还是负以下代码有效但这是我的问题我想将通话时长作为一项训练功能我

python machinelearning scikitlearn tfidf naivebayes

字符串作为决策树/随机森林中的特征

我是机器学习新手现在我正在做一些关于决策树随机森林应用的问题我正在尝试解决一个以数字和字符串例如国家地区名称为特征的问题现在 scikit learn 库仅接受数字作为参数但我想注入字符串以及它们携带大量知识我该如何处理这

machinelearning scikitlearn Decisiontree

sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异

我分别从 sklearn 的 RandomForestClassifier 和 roc curve auc 方法收到不同的 ROC AUC 分数以下代码得到了 0 878 的 ROC AUC 即 gs best score def tra

scikitlearn RandomForest ROC AUC

检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？

我一直在开发一个工具可以自动预处理 pandas DataFrame 格式的数据在此预处理步骤中我想以不同的方式处理连续数据和分类数据特别是我希望能够应用 OneHotEncoder 等only分类数据现在假设我们提供了一个

python pandas scikitlearn

scikit-learn 中聚类超参数评估的网格搜索

我正在对大约 100 条记录未标记的样本进行聚类并尝试使用 grid search 来评估具有各种超参数的聚类算法我正在使用得分silhouette score效果很好我的问题是我不需要使用交叉验证方面GridSearchCV R

python scikitlearn clusteranalysis scoring

roc_auc_score 和plot_roc_curve 结果不同

我正在训练一个RandomForestClassifier sklearn 预测信用卡欺诈然后当我测试模型并检查 rocauc 分数时我在使用时会得到不同的值roc auc score and plot roc curve roc au

scikitlearn RandomForest ROC AUC

如何解决“值对于 dtype('float32') 来说太大？”

我读了很多与此类似的问题但仍然无法弄清楚 clf DecisionTreeClassifier clf fit X train y train X to predict array 1 37097033e 002 0 00000000e

python NumPy scikitlearn

如何可视化 sklearn GradientBoostingClassifier？

我训练过一个梯度提升分类器 http scikit learn org stable modules generated sklearn ensemble GradientBoostingClassifier html sklearn en

scikitlearn graphviz Decisiontree

python错误：数组索引太多

我的输入是一个 csv 文件该文件已导入到 postgresqldb 中后来我使用 keras 构建了一个 cnn 下面的代码给出了以下错误 IndexError 数组索引太多我对机器学习很陌生所以我不知道如何解决这个问题有什么建

python Arrays NumPy scikitlearn indices

如何在 Python 中进行 F 检验来比较嵌套线性模型？

我想比较两个嵌套线性模型将它们称为 m01 和 m02 其中 m01 是简化模型 m02 是完整模型我想做一个简单的 F 检验看看完整模型是否比简化模型增加了显着的效用这在 R 中非常简单例如 mtcars lt read csv

python scikitlearn linearregression StatsModels

Lime vs TreeInterpreter 用于解释决策树[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案石灰来源 https github com marcotcr lime https github com marcotcr lime 树解

python machinelearning scikitlearn

scikit 多标签分类：ValueError：错误的输入形状

我相信SGDClassifier with loss log 支持多标签分类我不必使用 OneVsRestClassifier 检查这个 https stackoverflow com questions 15036630 batch g

machinelearning Classification scikitlearn stochasticprocess

scikit learn：与 GridSearchCV 兼容的自定义分类器

我已经实现了自己的分类器现在我想对其运行网格搜索但出现以下错误 estimator fit X train y train fit params TypeError fit takes 2 positional arguments bu

python machinelearning scikitlearn