datascience

C++ 并行任务的开销

我有以下简单的功能 include

c memory parallelprocessing datascience autocorrelation

如何每隔一行读取 CSV 文件

如何从 CSV 文件中每 2 行获取数据例如如果我有一个看起来像这样的文件 0 1 0 23 34 1 45 45 2 78 16 3 110 78 4 48 14 5 76 23 6 55 33 7 12 13 8 18 76 如何迭

python pandas NumPy datascience

虎鲸失踪

使用plotly 导出静态图表时遇到小问题 Plotly 无法正确识别我已安装 orca 并且仍然存在与缺少 orca 相关的错误我尝试更改 orca 目录但它仍然无法正常工作谁知道出了什么问题吗 My code import plo

python plotly datascience ORCA

如何使用FeatureUnion转换PipeLine中的多个特征？

我有一个 pandas 数据框其中包含有关用户发送的消息的信息对于我的模型我感兴趣的是预测消息的缺失收件人即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分我正在使用 OneVsRestClassifier 和

python27 scikitlearn NLP datascience multilabelclassification

如何将日期格式设置为 1900 年代？

我正在预处理数据一列代表日期例如 6 1 51 我正在尝试将字符串转换为日期对象到目前为止我所拥有的是 date row 2 strip format m d y datetime object datetime strptime d

python format datascience

使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w

python datascience datacleaning

编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python

python VisualStudioCode jupyternotebook datascience

在 Seaborn 中为 python 创建箱线图 FacetGrid

我正在尝试在seaborn中为4个箱线图创建一个4x4 FacetGrid 每个箱线图根据虹膜数据集中的虹膜种类分为3个箱线图目前我的代码如下所示 sns set style whitegrid iris vis sns load da

python datavisualization Seaborn datascience boxplot

KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用

python clusteranalysis kmeans datascience featureengineering

计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102

python pandas TimeSeries datascience

如何获得线性回归的调整 R 平方

使用 sklearn metrics 我可以计算 R 平方如何使用线性回归模型计算调整后的 R 平方 Scikit Learn 的线性回归不会返回调整后的 R 平方但是您可以根据 R 平方通过以下公式计算调整后的 R 平方其中 p

datascience

Spyder 和 Jupyter 有什么区别？

我正在学习Python用于数据科学但我的问题是我仍然不明白Spyder和Jupyter之间的区别我希望你们能帮助我理解其中的区别我将不胜感激以下只是这两个工具的基本摘要 Jupyter 是一个非常流行的用于数据分析的应用程序它是一

python datascience jupyter spyder

如何在 R 中绘制预测的子集？

我有一个简单的 R 脚本来根据文件创建预测自 2014 年以来就有数据记录但我在尝试实现以下两个目标时遇到了困难仅绘制预测信息的子集从 11 2017 开始以特定格式包含月份和年份即 6 月 17 日这是链接到dataset

r plot datascience

scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如

machinelearning scikitlearn RandomForest datascience

SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同

machinelearning NLP datascience spacy

Altair 中具有自定义置信区间的折线图

假设我有下面的数据框我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列可重现的代码 x np random normal 100 5 100 data

python3x machinelearning datascience altair

AttributeError：“Int64Index”对象没有属性“month”

我有一些时间序列数据包含三个独立的列日期时间千瓦如下所示 Date Time kW 3 1 2011 12 15 00 AM 171 36 3 1 2011 12 30 00 AM 181 44 3 1 2011 12 45 00

python pandas csv datascience

Python 中的自动 ARIMA 导致趋势拟合预测不佳

ARIMA 新手尝试使用自动 ARIMA 在 Python 中对数据集进行建模我正在使用 auto ARIMA 因为我相信它会更好地定义 p d 和 q 的值但结果很差我需要一些指导请参阅下面我的可重复尝试尝试如下 DEPEND

python datascience Prediction ARIMA pmdarima

非负矩阵分解中的评分预测

我正在关注这个博客http www quuxlabs com blog 2010 09 matrix factorization a simple tutorial and implementation in python http www

datascience collaborativefiltering matrixfactorization

按小时将日期时间对象排序到 Pandas 数据框，然后使用 Matplotlib 可视化为直方图

我需要按小时对观看者进行直方图排序我有一些使用 Matplotlib 来做到这一点的经验但是我不知道按小时对日期进行排序的最实用的方法是什么首先我从 JSON 文件中读取数据然后将两种相关的数据类型存储在 pandas Dataf

python pandas matplotlib datascience dataanalysis