scikitlearn

Python：UnicodeDecodeError：“utf8”编解码器无法解码字节

我正在将一堆 RTF 文件读入 python 字符串中在某些文本上我收到此错误 Traceback most recent call last File 11 08 py line 47 in

python encoding UTF8 scikitlearn

Python 中带有大稀疏矩阵的 kNN

我有两个大的稀疏矩阵 In 3 trainX Out 3 lt 6034195x755258 sparse matrix of type

python scikitlearn sparsematrix nearestneighbor

sklearn中score和accuracy_score的区别

有什么区别score 中的方法sklearn naive bayes GaussianNB 模块和accuracy score中的方法sklearn metrics模块两者看起来都是一样的那是对的吗一般来说不同的模型具有返回不同指标

python scikitlearn

如何将稀疏矩阵拆分为训练集和测试集？

我想了解如何使用稀疏矩阵我有这段代码可以生成多标签分类数据集作为稀疏矩阵 from sklearn datasets import make multilabel classification X y make multilabel cl

python NumPy scikitlearn sparsematrix

使用 scikit learn 对通过 networkx 生成的图进行谱聚类

我有一个 3000x50 特征向量矩阵我使用以下方法获得了一个相似度矩阵sklearn metrics pairwise distances作为相似度矩阵现在我用了networkx使用上一步中生成的相似度矩阵创建一个图G nx fro

clusteranalysis scikitlearn partitioning networkx spectral

Python 中高效的逐元素函数计算

我有以下优化问题给定两个 np arraysX Y和一个函数K我想尽快计算矩阵关联 gram matrix 其中 i j th元素计算为K X i Y j 这里有一个使用嵌套 for 循环的实现它被认为是解决此类问题最慢的 def pr

python NumPy scikitlearn vectorization

每次使用 scikit 运行线性回归时都会得到不同的结果

您好我有一个正在尝试优化的线性回归模型我正在优化指数移动平均线的跨度以及回归中使用的滞后变量的数量然而我不断发现结果和计算的均方误差不断得出不同的最终结果不知道为什么有人可以帮忙启动循环后的流程 1 使用三个变量创建新的数据框

python pandas scikitlearn linearregression

分组时间序列（面板）数据的交叉验证

我使用面板数据随着时间的推移我观察许多单位例如人对于每个单元我都有相同固定时间间隔的记录当将数据分为训练集和测试集时我们需要确保这两个集是不相交的并且顺序的即训练集中的最新记录应该在测试集中最早的记录之前参见例如此博客文章

python3x scikitlearn TimeSeries crossvalidation paneldata

VotingClassifier：不同的功能集

在我的例子中我有两个不同的功能集因此行数相同且标签相同 DataFrames df1 A B C 1 4 2 1 4 8 2 1 1 2 3 0 3 2 5 df2 E F 6 1 1 3 8 1 2 8 5 2 labels lab

python machinelearning scikitlearn

Python Sci-Kit 学习：多标签分类 ValueError：无法将字符串转换为浮点数：

我正在尝试使用 scikit learn 0 17 进行多标签分类我的数据看起来像 training Col1 Col2 asd dfgfg 1 2 3 poioi oiopiop 4 test Col1 asdas gwergwger

python machinelearning scikitlearn multilabelclassification

如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量

我有以下内容data http dpaste com 031VZPM txt State Murder Assault UrbanPop Rape Alabama 13 200 236 58 21 200 Alaska 10 000 263

python r pandas scikitlearn

scikit加权f1分数计算及使用

我有一个关于weightedsklearn metrics f1 score 中的平均值 sklearn metrics f1 score y true y pred labels None pos label 1 average weig

machinelearning NLP scikitlearn precisionrecall

多类分类的每类 F1 分数

我正在使用 python 和 scikit learn 解决多类分类问题目前我正在使用classification report函数来评估我的分类器的性能获得如下报告 gt gt gt print classification rep

python machinelearning scikitlearn

仅正样本和未标记数据集的二元半监督分类

我的数据由评论组成保存在文件中其中很少被标记为正面我想使用半监督和PU http www cs uic edu liub publications ICDM 03 pdf分类将这些评论分为正面和负面类别我想知道 python sci

scikitlearn Classification

Sklearn 随机森林回归器的错误

当尝试使用 y 数据拟合随机森林回归器模型时如下所示 0 00000000e 00 1 36094276e 02 4 46608221e 03 8 72660888e 03 1 31375786e 04 1 73580193e 04 2

python NumPy machinelearning scikitlearn RandomForest

Scikit - 如何定义绘制 roc 曲线的阈值

我有一个增强树模型以及测试数据集的概率和分类我正在尝试绘制相同的 roc curve 但我无法弄清楚如何在 scikit learn 中定义 roc 曲线的阈值 alpha from sklearn metrics import prec

python scikitlearn ROC

没有预测器的 Sklearn 回归

是否可以在 sklearn 中使用或不使用即仅使用截距预测器来运行回归例如逻辑回归这似乎是一个相当标准的类型分析也许这些信息已经在输出中可用我发现的唯一相关的事情是sklearn svm l1 min c但这会返回一个非空模型

python scikitlearn Regression LogisticRegression

SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy

python scikitlearn NLP Classification

在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G

python NLP scikitlearn

借助 AWS SageMaker，是否可以使用 sagemaker SDK 部署预先训练的模型？

我试图避免将现有模型训练过程迁移到 SageMaker 并避免创建自定义 Docker 容器来托管我们训练过的模型我的希望是将我们现有的经过训练的模型注入到 AWS 通过以下方式提供的预构建的 scikit learn 容器中 sage

python amazonwebservices scikitlearn amazonsagemaker