从 Pandas DataFrame 中提取数组（列名、数据）

2024-01-23

这是我在 Stack Overflow 上的第一个问题。

我有一个像这样的 Pandas 数据框。

        a   b   c   d
one     0   1   2   3
two     4   5   6   7
three   8   9   0   1
four    2   1   1   5
five    1   1   8   9

我想提取数据为 1 的列名和数据对，并且每个索引在数组中都是单独的。

[ [(b,1.0)], [(d,1.0)], [(b,1.0),(c,1.0)], [(a,1.0),(b,1.0)] ]

我想使用python库的gensim，它需要语料库作为这种形式。

有什么聪明的方法可以做到这一点或从 pandas 数据应用 gensim 吗？

许多 gensim 函数接受 numpy 数组，所以可能有更好的方法......

In [11]: is_one = np.where(df == 1)

In [12]: is_one
Out[12]: (array([0, 2, 3, 3, 4, 4]), array([1, 3, 1, 2, 0, 1]))

In [13]: df.index[is_one[0]], df.columns[is_one[1]]
Out[13]:
(Index([u'one', u'three', u'four', u'four', u'five', u'five'], dtype='object'),
 Index([u'b', u'd', u'b', u'c', u'a', u'b'], dtype='object'))

要对每一行进行分组，您可以使用 iterrows：

from itertools import repeat

In [21]: [list(zip(df.columns[np.where(row == 1)], repeat(1.0)))
          for label, row in df.iterrows()
          if 1 in row.values]  # if you don't want empty [] for rows without 1
Out[21]:
[[('b', 1.0)],
 [('d', 1.0)],
 [('b', 1.0), ('c', 1.0)],
 [('a', 1.0), ('b', 1.0)]]

在Python 2中list不是必需的，因为 zip 返回一个列表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

gensim

从 Pandas DataFrame 中提取数组（列名、数据）的相关文章

为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

设置STS但在web应用程序中保留formsauthentication

我正在现有的网络应用程序上启用 Windows 身份基础我希望尽可能少地干扰现有代码因此我希望登录页面使用应用程序中留下的表单验证并且如果用户通过特定页面例如 im comming from some other site aspx
使用 CDK 创建自定义 AWS IAM 策略

根据文档 https docs aws amazon com cdk api latest docs aws cdk aws iam Policy html https docs aws amazon com cdk api latest
验证 C 程序的输入

我有一个 C 程序其中接受 2 个数字作为输入如何验证输入的内容是否仅为数字而不是字符 void main int a b printf Enter two numbers scanf d d a b printf Number 1 i
将 IronPython 嵌入到我的 C# 应用程序中的最佳方式是什么？

我有一个由非常精通技术的人使用的应用程序他们想要可编程性的小岛所以我使用了嵌入式 Iron Python 然而自 IronPython 2 0 Eval 起不再起作用具体来说我无法同时加载模块和注入局部变量有一个解决办法我仍然
如何查询Win32_PerfFormattedData_Tcpip_NetworkInterface中的特定适配器？

如何查询特定适配器最好基于 IP 地址 Win32 PerfFormattedData Tcpip NetworkInterface 我花了一段时间谷歌搜索这个问题但没有找到解决方案我尝试使用Win32 NetworkAdapter
如何在Python程序中处理操作系统信号？

我正在编写一个 python 程序它通过无限 while 循环从队列中读取数据我如何处理操作系统键盘中断 CTRL C 发送的信号以打破 while 循环并关闭活动连接和文件并优雅地退出程序而不是终止进程 while True rea
SQLSTATE[HY093]：参数号无效：参数未定义

我使用 Yii 的活动记录模式已经有一段时间了现在我的项目需要访问不同的数据库来进行一项小事务我认为 Yii 的 DAO 对此很有帮助但是我遇到了一个神秘的错误 CDbCommand 执行 SQL 语句失败 SQLSTATE HY
使用翻转过渡更改 leftBarButtonItem？

在我的代码中我以编程方式将带有 UIButton 的 leftBarButtonItem 更改为 UIActivityIndi catorView 我想知道如何在更改时执行翻转过渡有什么想法吗多谢嗯我有一种感觉要做翻转过渡你需
实例化派生类时是否隐式调用抽象类构造函数？

举个例子 abstract class Base function construct echo Base construct br class Child extends Base function construct echo Chil
Android - 谷歌地图路由

我已将 Google 地图功能添加到我的应用程序中现在我问您有什么办法如何添加此 mapView 路由功能我将从 GPS 获取坐标如起点和目的地坐标我想画出到达终点的路线是否可以 Thanks Hmyzak 看到 Max G
我可以混合使用 Argument Captor 和常规匹配器吗？

我需要在 Mockito 中验证具有多个参数的方法但只需要捕获一个参数其他参数我只需要一个简单的匹配器那可能吗例如如果我有 Mock private Map
在python中生成一定范围内的N个正整数，加起来等于总和

我看过其他帖子解决类似的问题我知道如何生成 N 个正整数我还知道如何限制随机生成的整数的总和唯一的问题是满足 N 个值都不超出指定范围的条件 e g generate ints n total low high 应该生成 n 个值数组
Shiny R：textInput 的条件样式

我想改变一些颜色textInput labels 基于从selectInput输出这个想法是根据交互式文本的另一个选择来显示新的数据文本本身我已经设法 updateTextInput 我想为他们的标签做类似的事情因为并非所有text
在 macOS mojave 上安装 angular/cli 时出错 - node-pre-gyp

我格式化了 imac 并删除了 HD 上的所有文件但是当我安装 Angular cli 7 时终端控制台显示此错误日志环境 macOS 莫哈韦沙漠 10 14 2 节点 v10 15 npm 6 4 1 控制台错误 miguels
如何对 HTTPS Node.js 服务器使用自签名证书？

我已经开始为 API 编写一个包装器该 API 要求所有请求都通过 HTTPS 进行我不想在开发和测试实际 API 时向其发出请求而是想在本地运行自己的服务器来模拟响应我对如何生成创建 HTTPS 服务器并向其发送请求所需的证书感到
如何在 Kotlin Native 中导入 Java 包

我正在尝试导入 Java 包以在 Kotlin 本机中使用如下所示 main kt import java util fun main args Array
通过我的 LAN 接口通过 C# 发送电子邮件

我正在尝试模拟一些自组织网络我使用无线卡连接到自组织网络当我从该自组织网络获得一些触发时我希望能够向自己发送一些特定的消息我的笔记本电脑通过 LAN 接口连接到互联网并通过无线卡连接到 ad hoc 网络这是我的代码 priva
iPhone 中的 UILabel 文本问题

我有一个标签其中包含动态字符串数据例如我是 Mohit 我只想将 am 以粗体显示在 iphone 中可能吗如果是请给我建议提前致谢不标准 UILabel 中不能有不同样式的文本你可能需要使用的是NSAttributed
Dagger 2 如何使用子组件将一个类注入多个组件？

请提供示例代码来使用子组件实现此场景在 MyActivity 中我需要满足多个组件的依赖关系正如您在下面的代码中看到的我的活动需要来自compA via module classA and compB via module clas
从 Pandas DataFrame 中提取数组（列名、数据）

这是我在 Stack Overflow 上的第一个问题我有一个像这样的 Pandas 数据框 a b c d one 0 1 2 3 two 4 5 6 7 three 8 9 0 1 four 2 1 1 5 five 1 1 8 9

从 Pandas DataFrame 中提取数组（列名、数据）

从 Pandas DataFrame 中提取数组（列名、数据） 的相关文章

随机推荐

热门标签

从 Pandas DataFrame 中提取数组（列名、数据）的相关文章