DataFrame

Pandas 数据框获取每组的第一行

我有一只熊猫DataFrame像下面这样 df pd DataFrame id 1 1 1 2 2 3 3 3 3 4 4 5 6 6 6 7 7 value first second second first second first t

python pandas DataFrame groupby row

从多个数据帧中提取公共行的子集

我有多个数据框如下所述每行都有唯一的 id 我试图找到公共行并创建一个至少出现在两个数据框中的新数据框示例 Id 2 的行出现在所有三个数据框中类似地 df1 和 df3 中存在 Id 3 的行我想创建一个循环可以找到公共行并创

r DataFrame dataTable dplyr tidyr

将 r 中的数据帧转换为事务或 itemMatrix？

我有一个数据data frame我想将其转换成的格式transactions or an itemMatrix 检查功能arules支持这两种数据格式这就是我问这个问题的原因 library arules 示例 1 从矩阵创建交易 a ma

r DataFrame apriori

根据 Python Pandas 中的描述场景和状态过滤产品

假设我在 Pandas DataFrame 中有以下产品描述我想保留满足以下条件的产品的所有产品描述对于每一个id in product descriptions 检查是否包含全部descriptions从至少 1 个场景scenar

python pandas DataFrame filter

数据框中值之间的距离

我有一个数据框其中包含一系列虚拟变量这些变量指示在另一个事件 a 之前发生的事件类型 e1 e2 我需要知道从类型 e1 和 e2 的每个事件到下一个事件 a 的索引值的距离我尝试使用显示的数据进行演示我已经研究了一些解决方案包括

python pandas DataFrame

在 pandas 系列上成对应用函数

我有一个 pandas 系列其元素构成 freezesets data 0 frozenset apple banana 1 frozenset apple orange 2 frozenset banana 3 frozenset ku

python pandas DataFrame set frozenset

如何在 for 循环中检索 Pandas GroupBy 对象的行

我有一个按对象分组我想在 for 循环中检索按对象分组的特定列的行并进行一些处理例如我在这里给出了按对象分组的示例代码 df pd DataFrame A foo bar foo bar foo bar foo foo B one o

python pandas DataFrame

pandas 数据框的元组列表列表

我有这个数组它是相似性计算的结果它是一个像这样的元组列表 example a b c d a1 b1 c1 d2 在示例中有 121044 个列表每个列表有 30 个元组我想要一个 pandas Dataframe 就像元组的第二

python python3x pandas NumPy DataFrame

R 合并具有相似值的行

我有一个数据框行值首先从小到大排序我计算相邻行之间的行值差异组合具有相似差异例如小于 1 的行并返回组合行的平均值我可以使用 for 循环检查每一行的差异但这似乎是一种非常低效的方法还有更好的想法吗谢谢 library

r DataFrame dplyr diff clusteranalysis

R：使用字典/列表转换数据框列？

我有一个包含大量文本值级别的数据框列我需要将这些值映射到预定义的类似对象的结构以减少级别数我可以在 Python 中使用字典轻松实现此目的但无法使用 R 中的列表实现同样的目的例如我的数据框列类似于 df lt data f

r DataFrame transformation

Pandas 将值与前一行与过滤条件进行比较

我有一个包含员工工资信息的数据框大约有 900000 多行 Sample table num name salary 0 001234 John Johnson 1200 1 001234 John Johnson 1000 2 0012

python pandas DataFrame Compare rows

为什么pivot_wider要么将单个值读取为重复项，要么创建一个宽而长的小标题（不合并行）？

我浏览了此处发布的大部分相关问题但似乎没有一个问题与我面临的问题相同根据我的阅读此处已经发布的问题与长格式数据中的重复值缺乏唯一标识符有关这会导致带有列表列的宽格式数据这通常可以通过创建虚拟变量列来解决这是一串唯一的数字我已

r DataFrame dplyr duplicates tidyverse

使用 ddply 进行汇总统计

我喜欢使用编写一个函数ddply根据两列的名称输出汇总统计信息data frame mat mat是一个大data frame与列的名称 metric length species tree index index是具有 2 个水平的因子

r DataFrame plyr

pandas 相当于 R dcast

我有一些这样的数据 import pandas as pd df pd DataFrame index range 1 13 columns school year metric values df school id1 6 id2 6 d

python r pandas DataFrame pivottable

Python Dask - 2 个 DataFrame 的垂直串联

我正在尝试垂直连接两个 Dask DataFrame 我有以下 Dask DataFrame d A B C D E F 1 4 8 1 3 5 6 6 2 2 0 0 9 4 5 0 6 35 0 1 7 10 9 4 0 7 2 6 1

python27 DataFrame concatenation Dask

如何使用元组列表中的索引创建 pandas DataFrame

使用记录索引创建 pandas DataFrame 的最佳方法是什么这是我的样本 sales Jones LLC 150 200 50 Alpha Co 200 210 90 Blue Inc 140 215 95 labels acco

python27 pandas DataFrame

如何通过 Python 将 csv 数据帧上传到 azure？

我正在使用 Python 和 Pyspark 并且想要将 CSV 文件上传到 azure blob 存储我已经有一个由代码生成的数据框 df 我想做的是接下来的事情 Dataframe generated by code df Creat

python Azure DataFrame PySpark blob

R：循环数据框，根据日期提取数据子集

我有一个大型数据框其中包含如下所示的数据 date w x y z region 1 2012 01 21 43 12 3 NORTH 2 2012 02 32 54 21 16 NORTH 3 2012 03 14 32 65 32 N

r forloop DataFrame subset

转换为“日期时间”类型时出现问题：“小时必须为 0..23”

这些是我的 csv 文件中的一些示例行 10 10 1949 20 30 san marcos tx us cylinder 2700 45 minutes This event took place in early fall aroun

python pandas datetime DataFrame

将特定选定的列提取到新的 DataFrame 作为副本

我有一个包含 4 列的 pandas DataFrame 我想创建一个new数据框only有三列这个问题类似于从数据框中提取特定列 https stackoverflow com questions 10085806 extractin

python pandas DataFrame chainedassignment