如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？

2024-07-03

以下是我的未标记数据集的两行，这是一个小子集：

random1 147 sub1    95  34  dewdfa3 15000   -1238   SBAASBAQSBARSBATSBAUSBAXBELAAX  AAA:COL:UVTWUVWDUWDUWDWW    BBB:COL:F   CCC:COL:GTATGTCA    DDD:COL:K20 EEE:COL:54T GGG:COL:-30.5   HHH:COL:000.1   III:COL:2   JJJ:COL:0   

random2 123 sub1    996 12  kwnc239 10027    144        LBPRLBPSLBRDLBSDLBSLLBWB    AAA:COL:UWTTUTUVVUWWUUU BBB:COL:F   DDD:COL:CACGTCGG    EEE:COL:K19 FFF:COL:HCC16   GGG:COL:873 III:COL:-77 JJJ:COL:0   KKK:COL:0   LLL:COL:1   MMM:COL:212

前九列在整个数据集中是一致的，并且可以进行标记。

我的问题是以下几列。然后，该行中的每个值首先用列值进行标记，例如AAA:COL:UVTWUVWDUWDUWDWW是列AAA, BBB:COL:F是列BBB, etc.

但是，(1) 每行的列数不同，并且 (2) 某些列“缺失”。第一行缺少列FFF，第二行跳过列CCC and HHH.

另请注意，第一行停在列处JJJ，而第二列停止于列MMM.

如何分配数据帧的 9 + 13 列，并解析这些值，以便如果column:value对不存在，该列将有一个NaN value.

会喜欢吗pandas.read_table()有这个功能吗？

这是第一行的“正确”格式：

random    int     sub    int2    int3    string1    int4    int5    string2                         AAA            BBB    CCC    DDD    EEE    FFF    GGG .... MMM
random1   147    sub1    95      34      dewdfa3    15000   -1238   SBAASBAQSBARSBATSBAUSBAXBELAAX  UVTWUVWDUWDUWDWW    F   DFADFADFA   K20 54T 'NaN' -30.5 ....'NaN'

相关（且未回答）的问题在这里：如何将未标记和缺失的列导入 pandas 数据框中？ https://stackoverflow.com/questions/38491645/how-to-import-unlabeled-and-missing-columns-into-a-pandas-dataframe

这将做到这一点：

text = """random1 147 sub1    95  34  dewdfa3 15000   -1238   SBAASBAQSBARSBATSBAUSBAXBELAAX  AAA:COL:UVTWUVWDUWDUWDWW    BBB:COL:F   CCC:COL:GTATGTCA    DDD:COL:K20 EEE:COL:54T GGG:COL:-30.5    HHH:COL:000.1   III:COL:2  JJJ:COL:0   
random2 123 sub1    996 12  kwnc239 10027    144        LBPRLBPSLBRDLBSDLBSLLBWB    AAA:COL:UWTTUTUVVUWWUUU BBB:COL:F   DDD:COL:CACGTCGG    EEE:COL:K19 FFF:COL:HCC16   GGG:COL:873 III:COL:-77 JJJ:COL:0   KKK:COL:0   LLL:COL:1   MMM:COL:212"""

data = [line.split() for line in text.split('\n')]
data1 = [line[:9] for line in data]
data2 = [line[9:] for line in data]

# list of dictionaries from data2, where I parse the columns
dict2 = [[dict([d.split(':COL:') for d in d1]) for d1 in data2]

result = pd.concat([pd.DataFrame(data1),
                    pd.DataFrame(dict2)],
                   axis=1)

result.iloc[:, 9:]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

pandas

DataFrame

如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？的相关文章

matlab的imregionalmax()和scipy.ndimage.filters.maximum_filter有什么区别

我需要找到图像的区域最大值以获得用于分水岭分割的前景标记我在 matlab 中看到使用该函数imregionalmax http www mathworks com help images ref imregionalmax html 由
是否可以在所有平台上确定性地从 jpeg 文件中读取像素？

我遇到一个问题我发现 JPEG 图像中的像素可能会略有不同具体取决于我用来读取它们的计算机我主要是一名Python程序员我更喜欢使用opencv来读取我的图像但我不反对使用PIL做一些事情或用C读取图像根据这篇文章JPEG 图像
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import
配置 argparse 以接受带引号的参数

我正在编写一个程序除其他外它允许用户通过参数指定要加载的模块然后用于执行操作我试图建立一种方法来轻松地将参数传递到这个内部模块并且我试图使用 ArgParse 的action append 让它构建一个参数列表然后我将通过它这
Flask：如何从模板目录下提供静态文件？

我使用 Flask 并想要更改我的资产文件夹目录这是我的文件夹结构 python static js img font css templates default css js img venv app py 我想移动静态文件夹下的所有文
如何在 Python 3 中使用 smtplib.sendmail() 对收件人姓名（而不是地址）中的国际字符进行编码？

我在 Python 3 程序中使用标准 smtplib sendmail 调用来发送电子邮件如下所示 smtp session sendmail The Sender lt email protected cdn cgi l email
ipython：如何设置终端宽度

当我使用ipython terminal并想要打印一个numpy ndarray它有很多列行会在大约 80 个字符处自动断行即行的宽度为 cca 80 个字符 z zeros 2 20 print z 据推测 ipython 预计我的终
如何使用Python读取MP3中的ID3标签？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人有在 MP3 文件或 WMA 文件中读写 ID3 标签的经验吗有一些库但我想从头开始深入Python https web a
Pandas：处理测试中看不见的数据

我有一个训练数据集正在构建一些机器学习模型我无权访问测试集并且想要处理在训练中未观察到测试中的分类特征之一的可能性这是一个玩具示例说明了我的意思我有一个数据框 old 像这样 old pd DataFrame car Audi
包装 np.arrays __pow__ 方法

我只是重新审视我的一些代码以提高性能并遇到了一些奇怪的事情 a np linspace 10 1000 1000000 reshape 1000 1000 timeit np square a 100 loops best of 3 8
如何从python3中的单行输入读取整数数组

我想从 python3 中的单行输入读取整数数组例如将此数组读取到变量列表 1 3 5 7 9 我尝试过的 arr input split 但这不会将它们转换为整数它创建字符串数组 arr input split for i val
id 是 python 中的关键字吗？

我的编辑器 TextMate 显示id使用与我常用的变量名称不同的颜色当用作变量名称时是关键字吗我不想遮蔽任何关键字 id不是一个keyword在Python中但它是一个的名字内置功能 http docs python org li
Lightgbm OSError，库未加载

如果我简单地这样做 import lightgbm as lgb 我越来越 python script py Traceback most recent call last File script py line 4 in
剥离功能未按预期工作

def sstrip a b raw input enter the string to be stripped off i a strip b print i k raw input enter the string sstrip k o
与 C 数组相比，带有 NumPy 数组内存视图的 Cython 性能较差

我遇到了一个非常奇怪的结果基准 http nbviewer ipython org github rasbt One Python benchmark per day blob master ipython nbs day4 python
Django 会话竞争条件？

摘要 Django 会话中是否存在竞争条件如何防止它我在 Django 会话方面遇到了一个有趣的问题我认为该问题涉及由于同一用户同时发出请求而导致的竞争条件它发生在一个同时上传多个文件的脚本中正在本地主机上进行测试我认为这使得同
如何让机器人加入语音频道discord.py

我正在使用 Discord py 创建音乐机器人但我在将该机器人连接到语音通道时遇到问题我使用 Cog 将音乐功能与其他功能分开 commands command async def join voice self ctx channe
无法在 Debian lenny 上安装 python 模块“pycrypto”

我尝试通过下载源代码并执行以下命令来安装 pycrypto 模块python setup py install 然后出现错误 running install running build running build py running bu
Python 与 Hive 的连接

我安装了 Hortonworks Hive ODBC 驱动程序并在数据源中创建了连接我测试了它并且成功了我安装了PyODBC并编写了以下代码 import os sys pyodbc con pyodbc connect DSN MyC
您使用哪种 IDE（如果有）构建 python GUI 项目？

是否有任何 IDE 如 VS 支持拖放来构建 python GUI 连接到数据库等尽管我是一个 emacs 爱好者但我发现使用 VS 创建 GUI 更容易仅对于 GUI 我发现 VisualWx http visualwx alter

随机推荐

在系统文件中执行两次共享扩展以将文件共享到应用程序时发生崩溃

该应用程序使用共享扩展将一串 txt 文件导入到 Core Data 然后将核心数据同步到 iCloud 有一个实体叫做Item 当通过共享扩展共享系统文件中的新项目时代码需要计算order用于导入新项目代码是 import Found
由于维度不同，无法在 scikit-learn 中使用FeatureUnion

我正在尝试使用FeatureUnion从数据结构中提取不同的特征但由于维度不同而失败 ValueError blocks 0 has incompatible row dimensions 执行 My FeatureUnion是通过以下方
检测是否加载 Angular 依赖项 [角度路由、角度资源等] 以进行 CDN 回退

我在 ASP NET MVC 4 上使用 Angular JS 并使用脚本包从 CDN 加载并在 CDN 出现故障时从源服务器加载如下所示 var jQuery new ScriptBundle bundles scripts jque
如何在 Linux 中查看日志文件并在查看时应用自定义过滤器？

我需要阅读 Linux 系统上的一些巨大的日志文件日志中有很多杂乱的内容目前我正在做这样的事情 cat logfile txt grep v IgnoreThis IgnoreThat less 但这很麻烦每次我想添加另一个过滤器时
如果没有所需的值，则将文本框重新聚焦到焦点上

如果文本框没有所需的值我将把焦点放回文本框执行此函数后文本框不会重新聚焦然而它正在提醒 alert Must be 1 正确 textbox blur function event if this text 1 event prev
同时设计宝石跳过确认和通过电子邮件跳过确认

我正在使用 devise gem 在创建用户时我想跳过确认并跳过确认电子邮件例如 User create first name gt vidur last name gt punj confirm skip confirmation 但
Xamarin 表单上的 FindViewById？

我需要某种方法通过 ID 查找视图对象我听说过 FindViewById 函数但它不存在于我的内容页面类中我在哪里可以找到它上下文我有 ListView 里面有按钮我不知道有多少个按钮当用户单击其中一个按钮时我会获取其 I
Git：合并到master，同时自动选择用分支覆盖master文件

我正在使用 Git 来跟踪我的文档 Latex 源我想让 master 分支充满适合最终用户发布的文档这样当有人需要某些东西时我可以切换到 master 分支编译并分发文档当手册需要重大更新时我会创建新分支但是当手册获得批准
为什么真正的变体布尔值在转换为整数时会变成 -1？

我意识到人们不应该期望真实的Boolean成为1当投射到Integer 纯粹是他们变得非0 但是结果会根据变量是否为变量而变化Variant but varBoolean or a Boolean 考虑以下 I Integer true
LINQ 中的匿名类型成员声明符无效

我有两个实体一个是学生另一个是科目这两个实体的详细信息类似于 students id name subjects studentID subjectName passed 其中 passed 是布尔类型现在我想查询学生姓名和他可
当您单击不确定复选框时，IE 不会触发“更改”事件

我有一个三态复选框当用户单击它时我需要触发更改事件但当复选框的状态处于不确定时 IE 不会触发它可能是浏览器错误作为 IE 的解决方案我可以以编程方式触发更改事件但这不适用于我的情况因为我需要知道该事件是否被触发因为用
如何解析以逗号分隔的字符串？ [复制]

这个问题在这里已经有答案了 Char strings 1 5 95 255 我想将每个数字存储到一个 int 变量中然后打印出来例如输出变成这样值1 1 值2 5 值3 95 值4 255 我想在循环内执行此操作因此如果字符串中有超
如何在不使用助手的情况下访问 Meteor 模板中的全局变量？

我的所有图像文件都来自不同的域并将该主机名作为变量放入 Meteor settings 中那么如何在 Meteor 模板中访问这个变量呢例如在此模板中替换的最佳实践是什么img example com使用 Meteor sett
Ruby Watir —— 尝试循环访问 cnn.com 中的链接并单击其中的每一个

我创建了这个方法来循环访问网站中某个 div 中的链接我的方法的目的是收集链接将它们插入到一个数组中然后单击其中的每一个 require watir webdriver require watir webdriver wait sit
从 ArrayList IndexOutOfBoundsException 中删除整数[重复]

这个问题在这里已经有答案了 import java util Random import java util ArrayList public class Game ArrayList
为什么当请求 12 个符号时，python string cut 返回 11 个符号？

我在 OSX 10 9 上使用 python 2 7 并想剪切 unicode 字符串 05 mp3 由 12 个符号组成所以我使用mp3file 12 将其削减 12 个符号但结果我得到的字符串像05 m 只有 11 个符号但len
如何在 Windows 8 中制作混合应用程序？

Google Chrome 如何制作混合应用程序即一个在桌面上运行的应用程序一个在现代 UI 中运行的应用程序并且可以切换他们调用了什么新的 Windows API 唯一可以混合的应用程序是浏览器看here http go
删除远程master分支，由于是当前分支而被拒绝

如何从 GitHub Bitbucket 删除远程主分支我想 git push bb delete master remote bb acl user is allowed accepted payload K remote error
Python 中 Java 类/JAR 的实际使用？

我花了很多时间寻找这个并探索许多解决方案这与该线程有关从 Python 调用 Java https stackoverflow com questions 3652554 calling java from python 最后经过测试
如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？

以下是我的未标记数据集的两行这是一个小子集 random1 147 sub1 95 34 dewdfa3 15000 1238 SBAASBAQSBARSBATSBAUSBAXBELAAX AAA COL UVTWUVWDUWDUWDWW

如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？

如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？ 的相关文章

随机推荐

热门标签

如何将列的标记值解析为 Pandas Dataframe（缺少某些列值）？的相关文章