基于逗号分隔字符向量列值的Python熔化数据框

2024-01-16

我目前正在进行一项测试，其中有不同的区域和一些相关的统计数据，以及位于这些区域的以逗号分隔的基因列表。该列表的数量是可变的，并且可能不包含任何内容（"NA").

我怎样才能“融化”这个数据框：

 region_id  statistic      genelist
          1        2.5       A, B, C
          2        0.5    B, C, D, E
          3        3.2          <NA>
          4        0.1          E, F

变成这样的事情：

     region_id  statistic gene
           1       2.5    A
           1       2.5    B
           1       2.5    C
           2       0.5    B
           2       0.5    C
           2       0.5    D
           2       0.5    E
           3       3.2 <NA>
           4       0.1    E
           4       0.1    F

使用下面的代码，使用stack将其堆叠起来，然后分开', '，然后再次堆叠，因为我们堆叠了两次，所以使用unstack取消堆叠-2，然后使用重置索引reset_index with -1，之后做最后的reset_index不带参数：

print(df.set_index(['region_id', 'statistic'])
   .stack()
   .str.split(', ', expand=True)
   .stack()
   .unstack(-2)
   .reset_index(-1, drop=True)
   .reset_index()
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

基于逗号分隔字符向量列值的Python熔化数据框的相关文章

如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

用于查找时间跨度的最大平均值的 LINQ 查询

我有一组数据有两个点瓦特和时间戳每个数据点间隔 1 秒所以它看起来像这样 0 01 100 0 02 110 0 03 133 0 04 280 该数据集长达几个小时我想编写一个查询在其中可以找到不同时间段 5 秒 1 分钟 5
如何在 Android Retrofit 中忽略 JSON 元素

我正在开发一个 Android 应用程序它使用 Android Retrofit 发送 JSON 它将 POJO 类转换为 JSON 它工作正常但我需要在发送 JSON 时忽略 POJO 类中的一个元素有谁知道 Android Ret
在 linux ubuntu 中使用 CPAN 时，我应该使用 sudo / 作为 root 或作为我的默认用户运行它

我收到这样的错误 Running make install Prepending blib arch and blib lib of 17 build dirs to PERL5LIB for install ERROR Can t cre
将 Markdown 转换为 HTML 的正则表达式

如何编写正则表达式将 mark 转换为 HTML 例如您可以输入以下内容 This would be italicized text and this would be bold text 然后需要将其转换为 This would be
TomEE 8 服务器仅限于 Netbeans 15 中的 Java EE7 Web 应用程序

所以我从这里安装了最新的 Apache TomEE 8 服务器 https tomee apache org download html https tomee apache org download html TomEE 服务器运行良好
如何使用 OpenCV 和 Python 使用遮罩（或透明度）在图像中查找模板？

假设我们正在寻找这个模板我们模板的角是透明的因此背景会有所不同如下所示假设我们可以在模板中使用以下掩码找到它会很容易我尝试过的我努力了matchTemplate但它不支持蒙版据我所知并且在模板中使用 alpha 通道透明
Angular：从外部访问 ng-content 嵌套组件方法

我有两个共享组件我希望父组件调用其子组件中的方法共享组件 1 父组件 Component selector parent template div div div div
在 ffmpeg 中将 2 个音频文件与一个视频合并

我正在尝试合并 2 个音频文件 wav带视频文件 mp4 产生输出video mp4使用 ffmpeg 进行扩展Windows CMD 这是我尝试过的 ffmpeg i V MP4 i A1 WAV i A2 WAV map 0 v map
在 C# 中检测多个同时按键

我希望通过检测某些无法键入的组合键转义序列的按键来模拟 C 中的串行通信的超级终端功能例如 Ctrl C Ctrl Z 等我知道这些键有其 ASCII等价物并且可以按原样传输但我在检测多个按键时遇到问题我提供一些代码作为参考
顶部导航已隐藏

当我滚动到页面底部并看到页脚时我不希望隐藏导航顶部下面是滚动之前的状态 Below is a screenshot when scrolling down to the page 这是代码
从 int 中获取单个字节

我得到了一个 int 数例如 5630 十进制二进制数是 00000000 00000000 00010101 11111110 我想获得十进制的第二个字节 00010101 我怎样才能得到它您可以使用BitConverter Get
有哪些类型的测试？

我总是独自工作我的测试方法通常是经常编译并确保我所做的更改工作良好如果不工作则修复它们然而我开始觉得这还不够我对标准类型的测试感到好奇有人可以告诉我基本测试每个测试的简单示例以及为什么使用它测试什么吗 Thanks 不同的
使用故事板时，IBoutlets 很快为零

在我的一个ViewControllers 当我到达viewWillAppear 我所有的IBOutlets are nil 我尝试查看 matt的解决方案但它适用于笔尖而不是故事板这只是当我在 iOS 7 设备上运行应用程序时出现的问题
重新打包 .jar 文件

我需要将 JRE7 库中的一些 jar 添加到我的 Android 项目中但例如rt jar与以下内容相冲突android jar来自 Adroid 2 2 SDK 所以我收到此错误不明智或错误地使用核心类 java 或 javax 当
适用于 Linux 和 PHP 5.4 的 MSSQL Server 本机 ODBC 驱动程序

我在 Linux Debian 6 x64 上有 Apache 2 2 16 和 PHP 5 4 3 要安装适用于 Linux 的 MSSQL Server 的本机 ODBC 驱动程序我使用以下说明 http www codesynthe
如何强制重新编译 Linq to SQL 查询的执行计划？

我有一个动态创建的 LINQ to SQL 查询有趣的是当我在 SQL Management Studio 中运行它时速度快如闪电当我从 L2S 运行它时一段时间后它变得非常慢这可能是由于查询计划执行计划造成的当我重新启动
连接两个表时索引如何提高性能

在我们的一篇练习论文中我们被问到了标题中的问题我读过的大多数文章都说索引可以提高连接的性能但没有告诉我如何提高也许这是显而易见的事情不需要说明索引本质上是对列进行排序对吗所以我想按顺序排列一列会更容易操作还有更多吗还是我
以简单的方式将 SQL 转换为 SQLite？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我的问题有人有一种超级简单的方法在
主机名未解析为本地 IP 地址

我正在 vmware Fusion 中运行 Windows 8 虚拟机它在运行 OSX 10 10 Yosemite 的 Mac 内运行 VM 的计算机名称为 Proud 当我从内部 ping 虚拟机时即ping a 192 168 0
基于逗号分隔字符向量列值的Python熔化数据框

我目前正在进行一项测试其中有不同的区域和一些相关的统计数据以及位于这些区域的以逗号分隔的基因列表该列表的数量是可变的并且可能不包含任何内容 NA 我怎样才能融化这个数据框 region id statistic genelist

基于逗号分隔字符向量列值的Python熔化数据框

基于逗号分隔字符向量列值的Python熔化数据框 的相关文章

随机推荐

热门标签

基于逗号分隔字符向量列值的Python熔化数据框的相关文章