Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
scikit-learn RandomForestClassifier 中的子样本大小
如何控制用于训练森林中每棵树的子样本的大小 根据 scikit learn 的文档 随机森林是一种适合许多决策的元估计器 数据集的各个子样本上的树分类器并使用 平均以提高预测准确性并控制过度拟合 子样本大小始终与原始输入样本相同 大小 但如
machinelearning
scikitlearn
RandomForest
datascience
SpaCy 模型“en_core_web_sm”的词汇量大小
我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词 我也在同
machinelearning
NLP
datascience
spacy
Altair 中具有自定义置信区间的折线图
假设我有下面的数据框 我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列 可重现的代码 x np random normal 100 5 100 data
python3x
machinelearning
datascience
altair
AttributeError:“Int64Index”对象没有属性“month”
我有一些时间序列数据 包含三个独立的列 日期 时间 千瓦 如下所示 Date Time kW 3 1 2011 12 15 00 AM 171 36 3 1 2011 12 30 00 AM 181 44 3 1 2011 12 45 00
python
pandas
csv
datascience
Python 中的自动 ARIMA 导致趋势拟合预测不佳
ARIMA 新手 尝试使用自动 ARIMA 在 Python 中对数据集进行建模 我正在使用 auto ARIMA 因为我相信它会更好地定义 p d 和 q 的值 但结果很差 我需要一些指导 请参阅下面我的可重复尝试 尝试如下 DEPEND
python
datascience
Prediction
ARIMA
pmdarima
非负矩阵分解中的评分预测
我正在关注这个博客http www quuxlabs com blog 2010 09 matrix factorization a simple tutorial and implementation in python http www
datascience
collaborativefiltering
matrixfactorization
按小时将日期时间对象排序到 Pandas 数据框,然后使用 Matplotlib 可视化为直方图
我需要按小时对观看者进行直方图排序 我有一些使用 Matplotlib 来做到这一点的经验 但是我不知道按小时对日期进行排序的最实用的方法是什么 首先 我从 JSON 文件中读取数据 然后将两种相关的数据类型存储在 pandas Dataf
python
pandas
matplotlib
datascience
dataanalysis
训练新的 AutoTokenizer 拥抱脸部
收到此错误 AttributeError GPT2Tokenizer 对象没有 属性 train new from iterator 与拥抱面部文档非常相似 我更改了输入 就是这样 不应该影响它 有一次就成功了 2小时后回来查看 发现并没有
python
NLP
datascience
huggingfacetransformers
transformermodel
Scikit-learn 的 LabelBinarizer 与 OneHotEncoder
两者有什么区别 似乎两者都创建了新列 其数量等于特征中唯一类别的数量 然后 他们根据数据点所属的类别将 0 和 1 分配给数据点 下面显示了使用 LabelEncoder OneHotEncoder LabelBinarizer 对数组进行
python
encoding
scikitlearn
datascience
categoricaldata
将具有各种长度向量的列表转换为 R 中的 data.frame 的最简单方法
这里我有一个包含不同长度向量的列表 我想要一个数据框 我在 SO 中看到了很多关于它的帖子 请参阅参考文献 但它们都没有我预期的那么简单 因为这确实是数据预处理中的常见任务 谢谢 这里最简单的意思是as data frame aa 如果有效
r
list
DataFrame
datascience
scikit-learn - 将管道预测转换为原始值/规模
我创建了一个管道 如下所示 使用Keras Scikit Learn API https keras io scikit learn api estimators estimators append standardize Standard
python
machinelearning
scikitlearn
Keras
datascience
rvest,如何在 html_nodes 中具有 NA 值以创建数据表
所以我正在尝试制作网站上一些信息的数据表 这就是我到目前为止所做的 library rvest url lt https uws community symplicity com index php s student group page
r
webscraping
datascience
rvest
使用GpyOpt时如何添加限制条件?
目前我尝试使用 GPyOpt 最小化函数并获得优化的参数 import GPy import GPyOpt from math import log def f x x0 x1 x2 x3 x4 x5 x 0 x 1 x 2 x 3 x 4
python
datascience
Bayesian
gpyopt
以概率打乱 JS 数组
假设我有一个像这样的数组 const alphabet a b c d 这代表 4 名政治候选人和一次等级选择投票 其中候选人a是首选 b是第二选择等等 我想将其打乱为一堆随机顺序 但在这种情况下我想要a大概以 60 的比例最先出现 b第二
javascript
Algorithm
datascience
voting
votingsystem
每小时行数
我正在探索自行车共享数据 我合并了两个表 一个包含自行车共享数据 另一个包含天气数据 开始日期 列位于自行车共享数据中 日期 列是天气数据 我想对每小时的 ID 计数进行分组 这样我就可以看到天气对自行车使用的影响 ID Start End
pandas
DataFrame
pandasgroupby
datascience
ETL
如何在Google Colab上安装和使用底图?
我正在使用 google Colab 笔记本进行一个项目 该项目需要我在地图上绘制 GPS 坐标 我想为此目的使用底图 我尝试使用以下命令将其导入到 Colab 笔记本上 from mpl tools basemap import Base
python
matplotlib
datascience
dataanalysis
googlecolaboratory
朴素高斯预测概率仅返回 0 或 1
我从 scikit sklearn 训练了 GaussianNB 模型 当我调用该方法时classifier predict proba它仅在新数据上返回 1 或 0 预计会返回预测正确与否的置信度百分比 我怀疑它能否对以前从未见过的新数据
python
machinelearning
scikitlearn
NLP
datascience
Pandas Fillna 多列与每列众数
使用人口普查数据时 我想将两列 workclass 和 native country 中的 NaN 替换为这两列各自的模式 我可以轻松获得模式 mode df filter workclass native country mode 它返回
python
pandas
NumPy
datascience
调整 ConfusionMatrixDisplay 的大小 (Scikit Learn)
如何设置Scikit Learn Confusion Matrix绘制的图形大小 import numpy as np from sklearn metrics import ConfusionMatrixDisplay confusion
python
matplotlib
scikitlearn
datascience
confusionmatrix
在python中将多个Excel文件(xlsx)附加在一起
import pandas as pd import os import glob all data pd DataFrame for f in glob glob output test xlsx df pd read excel f a
python
Excel
pandas
MERGE
datascience
1
2
3
4
5
»