python pandas 从项集到数据框

2024-03-18

从项目集列表中获取更具可扩展性的方法是什么::

itemset = [['a', 'b'],
           ['b', 'c', 'd'],
           ['a', 'c', 'd', 'e'],
           ['d'],
           ['a', 'b', 'c'],
           ['a', 'b', 'c', 'd']]

对于这种类型的数据框::

>>> df
   a  b  c  d  e
0  1  1  0  0  0
1  0  1  1  1  0
2  1  0  1  1  1
3  0  0  0  1  0
4  1  1  1  0  0
5  1  1  1  1  0
>>>

df 的目标大小是 1e6 行和 500 列。

您可以使用get_dummies http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html:

print (pd.DataFrame(itemset))
   0     1     2     3
0  a     b  None  None
1  b     c     d  None
2  a     c     d     e
3  d  None  None  None
4  a     b     c  None
5  a     b     c     d
df1 = (pd.get_dummies(pd.DataFrame(itemset), prefix='', prefix_sep='' ))
print (df1)
     a    b    d    b    c    c    d    d    e
0  1.0  0.0  0.0  1.0  0.0  0.0  0.0  0.0  0.0
1  0.0  1.0  0.0  0.0  1.0  0.0  1.0  0.0  0.0
2  1.0  0.0  0.0  0.0  1.0  0.0  1.0  0.0  1.0
3  0.0  0.0  1.0  0.0  0.0  0.0  0.0  0.0  0.0
4  1.0  0.0  0.0  1.0  0.0  1.0  0.0  0.0  0.0
5  1.0  0.0  0.0  1.0  0.0  1.0  0.0  1.0  0.0

print (df1.groupby(df1.columns, axis=1).sum().astype(int))
   a  b  c  d  e
0  1  1  0  0  0
1  0  1  1  1  0
2  1  0  1  1  1
3  0  0  0  1  0
4  1  1  1  0  0
5  1  1  1  1  0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

pandas

python pandas 从项集到数据框的相关文章

高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
在 for 循环中访问 itertools 产品的元素

我有一个列表列表是附加 itertools 产品的一些其他结果的结果我想要的是能够使用 for 循环访问列表列表中列表的每个元素但我无法访问所有元素我只能访问最后一个列表的元素结果是一个非常巨大的列表列表例如 1 2 4 3 6
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python matplotlib：将轴标签/图例从粗体更改为常规粗细

我正在尝试制作一些出版质量的图但遇到了一个小问题默认情况下 matplotlib 轴标签和图例条目的权重似乎比轴刻度线重是否有办法强制轴标签图例条目与刻度线的重量相同 import matplotlib pyplot as plt
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin

随机推荐

在 ASP.NET MVC 页面上使用实体框架更新数据库记录时出错

我有一个 ASP NET 页面可以更新选定记录的注册用户地址详细信息下面是我从控制器调用的更新方法当我打电话时ApplyPropertyChanges方法我收到错误使用实体框架更新记录时有人遇到同样的错误吗感谢您的回复错误信息
ASP.NET如何从公共静态方法调用clientscript

我将在公共静态方法中使用以下 ClientScript 函数 VS2010 C 但它给了我一些错误我想将它用于带有 parent 目标的响应重定向 ClientScript RegisterStartupScript GetType Lo
GameObject 不允许有多个孩子

所以基本上我试图将一堆孩子添加到游戏对象中父游戏对象被称为SnakeHead当所有其他游戏对象被调用时SnakeBodyParts public class GameController MonoBehaviour public Game
64位CLR可以使用压缩指针吗？

我读过一些关于一些 64 位 Java VM 实现中的压缩对象指针的内容据我了解其原理是将引用存储为从一个对象到另一个对象的相对 32 位地址偏移量而不是完整的 64 位指针以获取内存我认为这种优化目前还没有应用于 NET CLR
PHP 中的“到处注销”是如何工作的？

我刚刚发现 stackoverflow 有一个链接可以注销每台已登录的计算机所以我考虑了如何在 PHP 中实现相同的功能我想出了使用 session set save haldner 来控制 write 方法在 write 方法中
当指向结构的双指针是函数的参数时，为什么我们使用“&(*”语句？

void instert NODE root int value insert root gt left value void search NODE root int value search root gt left value 为什么
如何解决“端口号以 'y' 结尾”的 url 错误？

在尝试将现有存储库从 gitlab 克隆到我的本地驱动器时我使用的格式 git clone https github com libgit2 libgit2 mylibgit 生成的文件夹例如mylibgit在 XAMPP Web 文件夹
在 Spring 中添加 Jaxb2 消息转换器会破坏 Jackson2 json 映射

我正在尝试让我的 Spring Rest 应用程序可以处理 xml 和 json 响应但似乎添加 Jaxb 消息转换器破坏了我的 json 映射 Bean public MappingJackson2HttpMessageConverte
git show commit 无法比较

我希望在 Beyond Compare 或任何其他单独的 diff 工具中查看特定提交同时通过以下方式查看它git show 我尝试查看 git show difftool config 的帮助但找不到任何内容有谁知道如何做到这一点
如何在 JavaScript 中使用 CryptoJS

I used CryptoJS https github com brix crypto js代替nodejscrypto 模块因为我只使用原生 JavaScript 但有些代码无法运行 function aesEncrypt text
获取当前年份的最后一天作为日期

如何使用 PHP 获取当年的最后一天 12 月 31 日作为日期我尝试了以下方法但这不起作用 year date Y yearEnd strtotime year 12 31 我需要的是一个看起来像今年 2014 12 31 的日期
当用户被禁用或删除时，Firebase 身份验证状态更改不会触发

幕后花絮我在用Firebase 身份验证在我的 Android 应用程序中使用 Google Facebook 和电子邮件密码注册加入用户到目前为止除了单个场景之外几乎一切都运行良好场景我需要disable or delet
异常 - 在线程“main”中 java.lang.ArrayIndexOutOfBoundsException

public class Sum public static void main String args int x y s x Integer parseInt args 0 y Integer parseInt args 1 s x y
Java：找不到符号？ [复制]

这个问题在这里已经有答案了当我尝试编译一个我编写的小程序来构建一副纸牌数组并打印它们时我收到 6 个错误所有这些错误都是找不到符号错误有人可以检查我的代码并找出错误吗谢谢编译输出 sudhakar sudhakar Dell
C++ 中的“矢量擦除迭代器超出范围”

在此 C 代码中我尝试删除向量末尾的元素但程序停止并且我收到消息 Expression vector erase iterator outside range 问题是什么毕竟通过这段代码向量是指针向量还是我在 Push back
如何在 MvvmCross 中指定要作为 Modal 推送的视图？

我在使用 MvvmCross 框架的 MonoTouch 应用程序中有一个视图我希望显示模态 NavigationController PresentModalViewController MvvmCross 的前提是所有 ViewMod
C# WPF子窗口（关于窗口）

我有一个正在开发的 C WPF 应用程序我有一个名为About这应该打开一个新窗口其中包含有关应用程序或我将放入其中的任何内容的详细信息当我单击 btn 时会打开一个新窗口关于当我再次单击时当新窗口关于打开时会打开另一个
正则表达式查找所有以 = 开头并以 & 结尾的字符串

我需要在大量文本中找到和符号之间的所有字符串我不希望结果字符串包含和只包含它们之间的内容如果您的正则表达式引擎支持lookbehinds lookaheads lt 否则使用这个并捕获捕获组 1 如果您的正则表达式引擎不支持非
在哪里可以找到“lib-dynload”中模块的源代码？

许多内置库尽可能使用 C 实现例如 heapq uses lib dynload heapq so如果有的话我在哪里可以找到类似模块的源代码 heapq 要查看任何版本的 CPython 的代码请访问 http hg python o
python pandas 从项集到数据框

从项目集列表中获取更具可扩展性的方法是什么 itemset a b b c d a c d e d a b c a b c d 对于这种类型的数据框 gt gt gt df a b c d e 0 1 1 0 0 0 1 0 1 1 1 0

python pandas 从项集到数据框

python pandas 从项集到数据框 的相关文章

随机推荐

热门标签

python pandas 从项集到数据框的相关文章