datascience

scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如

machinelearning scikitlearn RandomForest datascience

SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同

machinelearning NLP datascience spacy

Altair 中具有自定义置信区间的折线图

假设我有下面的数据框我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列可重现的代码 x np random normal 100 5 100 data

python3x machinelearning datascience altair

AttributeError：“Int64Index”对象没有属性“month”

我有一些时间序列数据包含三个独立的列日期时间千瓦如下所示 Date Time kW 3 1 2011 12 15 00 AM 171 36 3 1 2011 12 30 00 AM 181 44 3 1 2011 12 45 00

python pandas csv datascience

Python 中的自动 ARIMA 导致趋势拟合预测不佳

ARIMA 新手尝试使用自动 ARIMA 在 Python 中对数据集进行建模我正在使用 auto ARIMA 因为我相信它会更好地定义 p d 和 q 的值但结果很差我需要一些指导请参阅下面我的可重复尝试尝试如下 DEPEND

python datascience Prediction ARIMA pmdarima

非负矩阵分解中的评分预测

我正在关注这个博客http www quuxlabs com blog 2010 09 matrix factorization a simple tutorial and implementation in python http www

datascience collaborativefiltering matrixfactorization

按小时将日期时间对象排序到 Pandas 数据框，然后使用 Matplotlib 可视化为直方图

我需要按小时对观看者进行直方图排序我有一些使用 Matplotlib 来做到这一点的经验但是我不知道按小时对日期进行排序的最实用的方法是什么首先我从 JSON 文件中读取数据然后将两种相关的数据类型存储在 pandas Dataf

python pandas matplotlib datascience dataanalysis

训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有

python NLP datascience huggingfacetransformers transformermodel

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别似乎两者都创建了新列其数量等于特征中唯一类别的数量然后他们根据数据点所属的类别将 0 和 1 分配给数据点下面显示了使用 LabelEncoder OneHotEncoder LabelBinarizer 对数组进行

python encoding scikitlearn datascience categoricaldata

将具有各种长度向量的列表转换为 R 中的 data.frame 的最简单方法

这里我有一个包含不同长度向量的列表我想要一个数据框我在 SO 中看到了很多关于它的帖子请参阅参考文献但它们都没有我预期的那么简单因为这确实是数据预处理中的常见任务谢谢这里最简单的意思是as data frame aa 如果有效

r list DataFrame datascience

scikit-learn - 将管道预测转换为原始值/规模

我创建了一个管道如下所示使用Keras Scikit Learn API https keras io scikit learn api estimators estimators append standardize Standard

python machinelearning scikitlearn Keras datascience

rvest，如何在 html_nodes 中具有 NA 值以创建数据表

所以我正在尝试制作网站上一些信息的数据表这就是我到目前为止所做的 library rvest url lt https uws community symplicity com index php s student group page

r webscraping datascience rvest

使用GpyOpt时如何添加限制条件？

目前我尝试使用 GPyOpt 最小化函数并获得优化的参数 import GPy import GPyOpt from math import log def f x x0 x1 x2 x3 x4 x5 x 0 x 1 x 2 x 3 x 4

python datascience Bayesian gpyopt

以概率打乱 JS 数组

假设我有一个像这样的数组 const alphabet a b c d 这代表 4 名政治候选人和一次等级选择投票其中候选人a是首选 b是第二选择等等我想将其打乱为一堆随机顺序但在这种情况下我想要a大概以 60 的比例最先出现 b第二

javascript Algorithm datascience voting votingsystem

每小时行数

我正在探索自行车共享数据我合并了两个表一个包含自行车共享数据另一个包含天气数据开始日期列位于自行车共享数据中日期列是天气数据我想对每小时的 ID 计数进行分组这样我就可以看到天气对自行车使用的影响 ID Start End

pandas DataFrame pandasgroupby datascience ETL

如何在Google Colab上安装和使用底图？

我正在使用 google Colab 笔记本进行一个项目该项目需要我在地图上绘制 GPS 坐标我想为此目的使用底图我尝试使用以下命令将其导入到 Colab 笔记本上 from mpl tools basemap import Base

python matplotlib datascience dataanalysis googlecolaboratory

朴素高斯预测概率仅返回 0 或 1

我从 scikit sklearn 训练了 GaussianNB 模型当我调用该方法时classifier predict proba它仅在新数据上返回 1 或 0 预计会返回预测正确与否的置信度百分比我怀疑它能否对以前从未见过的新数据

python machinelearning scikitlearn NLP datascience

Pandas Fillna 多列与每列众数

使用人口普查数据时我想将两列 workclass 和 native country 中的 NaN 替换为这两列各自的模式我可以轻松获得模式 mode df filter workclass native country mode 它返回

python pandas NumPy datascience

调整 ConfusionMatrixDisplay 的大小 (Scikit Learn)

如何设置Scikit Learn Confusion Matrix绘制的图形大小 import numpy as np from sklearn metrics import ConfusionMatrixDisplay confusion

python matplotlib scikitlearn datascience confusionmatrix

在python中将多个Excel文件（xlsx）附加在一起

import pandas as pd import os import glob all data pd DataFrame for f in glob glob output test xlsx df pd read excel f a

python Excel pandas MERGE datascience