从 pandas df 中的列创建二元组

2023-11-29

我在 pandas 数据框中有这个测试表

   Leaf_category_id  session_id  product_id
0               111           1         987
3               111           4         987
4               111           1         741
1               222           2         654
2               333           3         321

这是我上一个问题的延伸，@jazrael 回答了这个问题。查看答案

因此，在获取product_id列中的值后（只是一个假设，与我上一个问题的输出略有不同，

   |product_id               |
   ---------------------------
   |111,987,741,34,12        |
   |987,1232                 |
   |654,12,324,465,342,324   |
   |321,741,987              |
   |324,654,862,467,243,754  |
   |6453,123,987,741,34,12   |

等等，我想创建一个新列，其中一行中的所有值都应与下一个值和最后一个值一起作为一个二元组。在与第一行组合的行中，例如：

   |product_id               |Bigram
   -------------------------------------------------------------------------
   |111,987,741,34,12        |(111,987),**(987,741)**,(741,34),(34,12),(12,111)
   |987,1232                 |(987,1232),(1232,987)
   |654,12,324,465,342,32    |(654,12),(12,324),(324,465),(465,342),(342,32),(32,654)
   |321,741,987              |(321,741),**(741,987)**,(987,321)
   |324,654,862              |(324,654),(654,862),(862,324)
   |123,987,741,34,12        |(123,987),(987,741),(34,12),(12,123)

忽略**（稍后我会告诉你为什么我加星标）

实现二元组的代码是

for i in df.Leaf_category_id.unique(): 
    print (df[df.Leaf_category_id == i].groupby('session_id')['product_id'].apply(lambda x: list(zip(x, x[1:]))).reset_index())

从这个 df 中，我想考虑二元组列，并再创建一个名为频率的列，这给出了二元组出现的频率。

注*：(987,741) 和 (741,987) 被视为相同，并且应删除一个重复条目，因此 (987,741) 的频率应为 2。 (34,12) 的情况类似，它出现了两次，所以频率应该是 2

   |Bigram
   ---------------
   |(111,987),
   |**(987,741)**
   |(741,34)
   |(34,12)
   |(12,111)
   |**(741,987)**
   |(987,321)
   |(34,12)
   |(12,123)

最终结果应该是。

   |Bigram       | frequency |
   --------------------------
   |(111,987)    |  1 
   |(987,741)    |  2
   |(741,34)     |  1
   |(34,12)      |  2
   |(12,111)     |  1
   |(987,321)    |  1
   |(12,123)     |  1

我希望在这里找到答案，请帮助我，我已经尽可能详细地阐述了。

试试这个代码

from itertools import combinations
import pandas as pd

df = pd.DataFrame.from_csv("data.csv")
#consecutive
grouped_consecutive_product_ids = df.groupby(['Leaf_category_id','session_id'])['product_id'].apply(lambda x: [tuple(sorted(pair)) for pair in zip(x,x[1:])]).reset_index()

df1=pd.DataFrame(grouped_consecutive_product_ids)
s=df1.product_id.apply(lambda x: pd.Series(x)).unstack()
df2=pd.DataFrame(s.reset_index(level=0,drop=True)).dropna()
df2.rename(columns = {0:'Bigram'}, inplace = True)
df2["freq"] = df2.groupby('Bigram')['Bigram'].transform('count')
bigram_frequency_consecutive = df2.drop_duplicates(keep="first").sort_values("Bigram").reset_index()
del bigram_frequency_consecutive["index"]

对于组合（所有可能的二元组）

from itertools import combinations
import pandas as pd

df = pd.DataFrame.from_csv("data.csv")
#combinations
grouped_combination_product_ids = df.groupby(['Leaf_category_id','session_id'])['product_id'].apply(lambda x: [tuple(sorted(pair)) for pair in combinations(x,2)]).reset_index()

df1=pd.DataFrame(grouped_combination_product_ids)
s=df1.product_id.apply(lambda x: pd.Series(x)).unstack()
df2=pd.DataFrame(s.reset_index(level=0,drop=True)).dropna()
df2.rename(columns = {0:'Bigram'}, inplace = True)
df2["freq"] = df2.groupby('Bigram')['Bigram'].transform('count')
bigram_frequency_combinations = df2.drop_duplicates(keep="first").sort_values("Bigram").reset_index()
del bigram_frequency_combinations["index"]

where data.csv包含

Leaf_category_id,session_id,product_id
0,111,1,111
3,111,4,987
4,111,1,741
1,222,2,654
2,333,3,321
5,111,1,87
6,111,1,34
7,111,1,12
8,111,1,987
9,111,4,1232
10,222,2,12
11,222,2,324
12,222,2,465
13,222,2,342
14,222,2,32
15,333,3,321
16,333,3,741
17,333,3,987
18,333,3,324
19,333,3,654
20,333,3,862
21,222,1,123
22,222,1,987
23,222,1,741
24,222,1,34
25,222,1,12

由此产生的bigram_frequency_consecutive将

         Bigram  freq
0      (12, 34)     2
1     (12, 324)     1
2     (12, 654)     1
3     (12, 987)     1
4     (32, 342)     1
5      (34, 87)     1
6     (34, 741)     1
7     (87, 741)     1
8    (111, 741)     1
9    (123, 987)     1
10   (321, 321)     1
11   (321, 741)     1
12   (324, 465)     1
13   (324, 654)     1
14   (324, 987)     1
15   (342, 465)     1
16   (654, 862)     1
17   (741, 987)     2
18  (987, 1232)     1

由此产生的bigram_frequency_combinations将

           Bigram  freq
0      (12, 32)     1
1      (12, 34)     2
2      (12, 87)     1
3     (12, 111)     1
4     (12, 123)     1
5     (12, 324)     1
6     (12, 342)     1
7     (12, 465)     1
8     (12, 654)     1
9     (12, 741)     2
10    (12, 987)     2
11    (32, 324)     1
12    (32, 342)     1
13    (32, 465)     1
14    (32, 654)     1
15     (34, 87)     1
16    (34, 111)     1
17    (34, 123)     1
18    (34, 741)     2
19    (34, 987)     2
20    (87, 111)     1
21    (87, 741)     1
22    (87, 987)     1
23   (111, 741)     1
24   (111, 987)     1
25   (123, 741)     1
26   (123, 987)     1
27   (321, 321)     1
28   (321, 324)     2
29   (321, 654)     2
30   (321, 741)     2
31   (321, 862)     2
32   (321, 987)     2
33   (324, 342)     1
34   (324, 465)     1
35   (324, 654)     2
36   (324, 741)     1
37   (324, 862)     1
38   (324, 987)     1
39   (342, 465)     1
40   (342, 654)     1
41   (465, 654)     1
42   (654, 741)     1
43   (654, 862)     1
44   (654, 987)     1
45   (741, 862)     1
46   (741, 987)     3
47   (862, 987)     1
48  (987, 1232)     1

在上面的情况下，它按两者分组

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

python3x

pandas

从 pandas df 中的列创建二元组的相关文章

跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

我如何要求 Spring 应用程序中的所有请求处理程序都具有 @PreAuthorize

我想将 Spring 安全应用程序切换到注释但我想确保每个请求都有自己的 PreAuthorize在允许外部调用之前先进行注释是否可以为此设置 Spring Security 策略据我所知没有办法定义这种政策但是您可以设置一个 S
从服务器拨打电话——有哪些服务？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我希望通过软件拨打电话并让软件向收件人读取消息我一直在使用 Asterisk 但发现它有点需要维护而且配置起来很痛苦我想知道是否有任何服务可
如何将返回 Either 的异步方法绑定到在 Language-Ext 中接受 Option 的异步方法？

这是一个后续问题我问过类似的关于绑定返回不同类型的 monad 在得到明确的答案后我意识到我没有问完整的问题马克西曼 Mark Seemann 回答者建议我将这个问题作为一个新问题提出而不是修改这个问题这个问题确实是独立的因此值
消除无用的析构函数调用的实例化？

嗯我的同事对消除析构函数不必要的代码实例化非常挑剔还是同样的情况如中提到的这个问题空间非常有限 text部分小于 256 KB 代码库应该在多个目标之间扩展包括最有限的目标代码库的众所周知的用例意味着一些析构函数逻辑是否需要管
Yii2 中模块的自定义 URL 规则

我一直在四处寻找但没有找到我需要的东西基本上我有一些只有 DefaultController 的小模块和一些带有多个控制器的较大模块我的小模块规则运行良好但大模块规则则不行这是我的规则
如何将数据库连接到 Angular Web 应用程序？

我想在 Angular Web 应用程序中显示和编辑现有 PostgreSQL 数据库中的数据我对角度之类的东西完全陌生我已经下载了pg和express 浏览完这个页面后 https developer mozilla org en U
可以使用 AutoMapper 将一个对象映射到对象列表吗？

这些是我的课程 public class EventLog public string SystemId get set public string UserId get set public List
NHibernate 中的表达式树

我有一个具有此签名的方法 public static IList
在活动之间保留 Google Play 服务登录

我认为这很简单但我一直在兜圈子试图找出如何让用户保持登录状态Activities 我有一个主要和一个详细信息 Activity 用户登录Google Play Services在主要 Activity我想在详细信息中提交成就
所有视图模型都继承自“BaseViewModel”，我可以在 OnActionExecuting 中设置它吗？

如果我的所有操作都有一个继承自 BaseViewModel 的模型是否可以从 OnActionExecuting 方法初始化该模型目前在我的所有行动中我都是这样做的 var model new SomeModel model Use
c# WinForms 可以获得 NumericUpDown 文本区域

是否可以获取 NumericUpDown 控件的文本区域我正在寻找它的尺寸以便我可以用面板遮盖它我不希望用户能够编辑并选择文本这可能吗或者还有其他方法可以覆盖文本框中的文本吗 Thanks 您可以通过使用 Label 控件而不是内
WinUI 3 打包应用程序未在 AppData 中创建文件夹

在 WinUI 3 打包应用程序中我尝试在中创建一个文件夹AppData Local MyApp 在我的应用程序启动中我正在执行以下操作 public App string apf Environment GetFolderPath E
TYPO3 TCA在后端对象保存后执行挂钩

如果通过后端保存对象我想操作一些值并执行自定义函数我通过谷歌搜索发现我必须在我的ext localconfphp GLOBALS TYPO3 CONF VARS SC OPTIONS t3lib class t3lib tcemain
fget 是如何工作的？

我在用海湾合作委员会 Ubuntu 4 8 2 19ubuntu1 4 8 2我正在编写一个非常简单的脚本以字符串作为输入并使用一些自定义消息打印相同的内容首先用户输入 T 获取字符串的次数然后通过以下方式获取输入fgets 我用了t
如何从 Intellij IDEA 部署 tomcat/webapps 文件夹

我正在通过 Intellij IDEA Tomcat 集成测试 Web 应用程序基于 Apache Wicket 在那里我注意到 web 应用程序认为它在 tomcat 的 bin 文件夹中运行另外当我打电话给ServletContex
打开另存为窗口并从单元格填充文件名和文件路径

我正在尝试打开另存为窗口并从单元格填充文件名和文件路径这是我的代码它填充文件名并在文件路径中打开另存为窗口但是当我单击保存时文件永远不会显示在应该保存的位置 Sub Save Adds formula to show f
应用内屏幕截图并附加到电子邮件，无需保存到库中

我想知道如果我想让我的应用程序能够通过按 UI 按钮来截取屏幕截图并立即弹出邮件撰写并通过电子邮件发送屏幕截图而不将其保存到照片库中我想知道应该使用什么代码非常感谢您需要向您的项目添加两个框架 QuartzCore and Messa
从函数返回一个值？

我正在尝试编写一个函数来分析一些文本和正则表达式模式例子 import re def foo input pattern text pattern re compile r input patern re I find pattern f
在 php codeigniter 视图中循环

我得到一个像这样的数组 query data this gt flights gt checkflight form data getting data this gt load gt view payment query sending
从 pandas df 中的列创建二元组

我在 pandas 数据框中有这个测试表 Leaf category id session id product id 0 111 1 987 3 111 4 987 4 111 1 741 1 222 2 654 2 333 3 321

从 pandas df 中的列创建二元组

从 pandas df 中的列创建二元组 的相关文章

随机推荐

热门标签

从 pandas df 中的列创建二元组的相关文章