Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
C++ 并行任务的开销
我有以下简单的功能 include
c
memory
parallelprocessing
datascience
autocorrelation
如何每隔一行读取 CSV 文件
如何从 CSV 文件中每 2 行获取数据 例如 如果我有一个看起来像这样的文件 0 1 0 23 34 1 45 45 2 78 16 3 110 78 4 48 14 5 76 23 6 55 33 7 12 13 8 18 76 如何迭
python
pandas
NumPy
datascience
虎鲸失踪
使用plotly 导出静态图表时遇到小问题 Plotly 无法正确识别我已安装 orca 并且仍然存在与缺少 orca 相关的错误 我尝试更改 orca 目录 但它仍然无法正常工作 谁知道出了什么问题吗 My code import plo
python
plotly
datascience
ORCA
如何使用FeatureUnion转换PipeLine中的多个特征?
我有一个 pandas 数据框 其中包含有关用户发送的消息的信息 对于我的模型 我感兴趣的是预测消息的缺失收件人 即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分 我正在使用 OneVsRestClassifier 和
python27
scikitlearn
NLP
datascience
multilabelclassification
如何将日期格式设置为 1900 年代?
我正在预处理数据 一列代表日期 例如 6 1 51 我正在尝试将字符串转换为日期对象 到目前为止我所拥有的是 date row 2 strip format m d y datetime object datetime strptime d
python
format
datascience
使用 Python 从文本中删除非英语单词
我正在 python 上进行数据清理练习 我正在清理的文本包含我想删除的意大利语单词 我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作 例如给出一些文本 Io andiamo to the beach w
python
datascience
datacleaning
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”
使用 Jupyter Notebook 时 VSCode 中缺少 在选择中查找 按钮 它会减慢开发速度 所以我想请问有人知道如何激活它吗 第一张图显示了在 python 文件中的搜索 替换 第二张图显示了笔记本电脑中缺少的按钮 Python
python
VisualStudioCode
jupyternotebook
datascience
在 Seaborn 中为 python 创建箱线图 FacetGrid
我正在尝试在seaborn中为4个箱线图创建一个4x4 FacetGrid 每个箱线图根据虹膜数据集中的虹膜种类分为3个箱线图 目前 我的代码如下所示 sns set style whitegrid iris vis sns load da
python
datavisualization
Seaborn
datascience
boxplot
KMeans 对不平衡数据进行聚类
我有一组包含 50 个特征 c1 c2 c3 的数据 行数超过 80k 每行包含标准化数值 范围 0 1 它实际上是一个标准化的虚拟变量 其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征 我使用
python
clusteranalysis
kmeans
datascience
featureengineering
计算熊猫数据帧几个月的总和
我有一个 pandas 数据框 如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
python
pandas
TimeSeries
datascience
如何获得线性回归的调整 R 平方
使用 sklearn metrics 我可以计算 R 平方 如何使用线性回归模型计算调整后的 R 平方 Scikit Learn 的线性回归不会返回调整后的 R 平方 但是 您可以根据 R 平方 通过以下公式计算调整后的 R 平方 其中 p
datascience
Spyder 和 Jupyter 有什么区别?
我正在学习Python用于数据科学 但我的问题是我仍然不明白Spyder和Jupyter之间的区别 我希望你们能帮助我理解其中的区别 我将不胜感激 以下只是这两个工具的基本摘要 Jupyter 是一个非常流行的用于数据分析的应用程序 它是一
python
datascience
jupyter
spyder
如何在 R 中绘制预测的子集?
我有一个简单的 R 脚本来根据文件创建预测 自 2014 年以来就有数据记录 但我在尝试实现以下两个目标时遇到了困难 仅绘制预测信息的子集 从 11 2017 开始 以特定格式包含月份和年份 即 6 月 17 日 这是链接到dataset
r
plot
datascience
scikit-learn RandomForestClassifier 中的子样本大小
如何控制用于训练森林中每棵树的子样本的大小 根据 scikit learn 的文档 随机森林是一种适合许多决策的元估计器 数据集的各个子样本上的树分类器并使用 平均以提高预测准确性并控制过度拟合 子样本大小始终与原始输入样本相同 大小 但如
machinelearning
scikitlearn
RandomForest
datascience
SpaCy 模型“en_core_web_sm”的词汇量大小
我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词 我也在同
machinelearning
NLP
datascience
spacy
Altair 中具有自定义置信区间的折线图
假设我有下面的数据框 我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列 可重现的代码 x np random normal 100 5 100 data
python3x
machinelearning
datascience
altair
AttributeError:“Int64Index”对象没有属性“month”
我有一些时间序列数据 包含三个独立的列 日期 时间 千瓦 如下所示 Date Time kW 3 1 2011 12 15 00 AM 171 36 3 1 2011 12 30 00 AM 181 44 3 1 2011 12 45 00
python
pandas
csv
datascience
Python 中的自动 ARIMA 导致趋势拟合预测不佳
ARIMA 新手 尝试使用自动 ARIMA 在 Python 中对数据集进行建模 我正在使用 auto ARIMA 因为我相信它会更好地定义 p d 和 q 的值 但结果很差 我需要一些指导 请参阅下面我的可重复尝试 尝试如下 DEPEND
python
datascience
Prediction
ARIMA
pmdarima
非负矩阵分解中的评分预测
我正在关注这个博客http www quuxlabs com blog 2010 09 matrix factorization a simple tutorial and implementation in python http www
datascience
collaborativefiltering
matrixfactorization
按小时将日期时间对象排序到 Pandas 数据框,然后使用 Matplotlib 可视化为直方图
我需要按小时对观看者进行直方图排序 我有一些使用 Matplotlib 来做到这一点的经验 但是我不知道按小时对日期进行排序的最实用的方法是什么 首先 我从 JSON 文件中读取数据 然后将两种相关的数据类型存储在 pandas Dataf
python
pandas
matplotlib
datascience
dataanalysis
1
2
3
4
5
»