如何解析非结构化表状数据？

2024-04-08

我有一个text file保存操作的一些结果。数据显示在human-readable format（就像一张桌子）。我如何解析这些数据，以便形成一个数据结构，例如dictionaries有了这个数据？

的一个例子unstructured data如下所示。

===============================================================
Title
===============================================================
Header     Header Header Header  Header       Header
1          2      3      4       5            6                   
---------------------------------------------------------------
1          Yes    No     6       0001 0002    True    
2          No     Yes    7       0003 0004    False    
3          Yes    No     6       0001 0001    True    
4          Yes    No     6       0001 0004    False    
4          No     No     4       0004 0004    True    
5          Yes    No     2       0001 0001    True    
6          Yes    No     1       0001 0001    False    
7          No     No     2       0004 0004    True

上例中显示的数据不是tab-separated or comma separated。它总是有一个header相应地，可能/可能没有值column-like外貌。

我尝试过使用基本的解析技术，例如regex and conditional checks，但我需要一种更强大的方法来解析这些数据，因为上面显示的示例并不是呈现数据的唯一格式。

Update 1：除了所示的示例之外，还有很多情况，例如添加更多列、单个单元格具有多个实例（但在下一行中直观地显示，而它属于上一行）。

有没有python库可以解决这个问题吗？

Can machine learning技术可以帮助解决这个问题而无需解析吗？如果是，这是什么类型的问题（分类、回归、聚类）？

===============================================================
Title
===============================================================
Header     Key_1   Header Header  Header       Header
1          Key_2   3      4       5            6                   
---------------------------------------------------------------
1          Value1  No     6       0001 0002    True
           Value2    
2          Value1  Yes    7       0003 0004    False    
           Value2
3          Value1  No     6       0001 0001    True    
           Value2
4          Value1  No     6       0001 0004    False    
           Value2  
5          Value1  No     4       0004 0004    True    
           Value2  
6          Value1  No     2       0001 0001    True    
           Value2  
7          Value1  No     1       0001 0001    False    
           Value2  
8          Value1  No     2       0004 0004    True
           Value2

Update 2：它可能看起来像的另一个示例涉及具有多个实例的单个单元格（但在下一行中直观地显示，而它属于上一行）。

假设您的示例是“sample.txt”。

import pandas as pd

df = pd.read_table('sample.txt', skiprows=[0, 1, 2, 3, 5], delimiter='\s\s+')

print(df)
print(df.shape)

   1    2    3  4          5      6
0  1  Yes   No  6  0001 0002   True
1  2   No  Yes  7  0003 0004  False
2  3  Yes   No  6  0001 0001   True
3  4  Yes   No  6  0001 0004  False
4  4   No   No  4  0004 0004   True
5  5  Yes   No  2  0001 0001   True
6  6  Yes   No  1  0001 0001  False
7  7   No   No  2  0004 0004   True
(8, 6)

当然，您可以更改数据类型。请检查大量params http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html of pd.read_table()。另外，还有method http://pandas.pydata.org/pandas-docs/stable/io.html适用于 xlsx、csv、html、sql、json、hdf，甚至剪贴板等。

欢迎来到pandas http://pandas.pydata.org/...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何解析非结构化表状数据？的相关文章

在 Python 中比较浮点数是否几乎相等的最佳方法是什么？

众所周知由于舍入和精度问题比较浮点数是否相等有点繁琐例如比较浮点数 2012 年版 https randomascii wordpress com 2012 02 25 comparing floating point number
扭曲多种协议

我希望为我正在从事的项目学习扭曲该项目需要服务器响应 HTTP 请求以及通过 TCP 连接的其他协议 Twisted能够同时处理多种协议吗我想使用 Twisted Web 来帮助处理 HTTP 但同时需要响应其他端口上的 TCP 连接
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
如何将数据从 JavaScript 发送到 Python

我正在 jinja2 和 python2 7 上使用 GAE 进行 Web 开发我可以从Python获取数据但我无法将数据从 JavaScript 发送到 Python 这是 JavaScript 代码 function toSave
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
在 Python 中倾斜数组

我有一个 2D 数组我将使用它保存为灰度图像scipy misc toimage 在此之前我想将图像倾斜给定角度像这样进行插值scipy ndimage interpolation rotate 上图只是为了说明倾斜过程我知道我必须
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
PyQt5 的 OpenGL 模块和版本控制问题（调用不正确的 _QOpenGLFunctions_(ver)）

我一直在努力得到PyQt5 helloGL 示例代码 https github com baoboa pyqt5 blob master examples opengl hellogl py编译当我尝试构建解决方案时我得到 Traceb
如何在 powershell 中使用正则表达式选择“catch”代码块？

我正在尝试分析多个目录中的大量 powershell 脚本并且希望将任何 Catch 代码块拉入列表变量中我正在尝试编写一个正则表达式来选择以下格式的任何块 Catch write Host Function MyInvocation
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
如何仅在按下某个键时触发鼠标单击？在Python中

我想制作一个程序或者当我单击某个键时鼠标会自动单击只要我单击该键如果我不单击该键它就会停止我不希望只在触摸按键一次时才发生点击而是只要按住按键就发生点击也可以像雷蛇突触鼠标一样按下鼠标左键触发点击任何想法 EDIT 1 这
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
`numpy.diff` 和 `scipy.fftpack.diff` 在微分时给出不同的结果

我正在尝试计算一些数据的导数并且正在尝试比较有限差分的输出和谱方法的输出但结果却截然不同我无法弄清楚到底为什么考虑下面的示例代码 import numpy as np from scipy import fftpack as sp
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助

随机推荐

具有关联数组的唯一数组 - 删除重复项

我有一个包含一些重复项目的关联数组例如我有
什么是 keyExtractor 参数

我正在学习Comparator界面我对它的静态感到困惑Comparator comparing 方法关于Comparator comparing 方法的参数以及它如何使用方法引用当我查看文档时它说它有一个 keyExtractor
如何开发才能利用64位系统？

软件工程师计算机科学的某些特定领域在针对 64 位系统进行开发时是否存在显着差异我已经编码了大约 10 年自从 64 位系统崩溃以来我的代码没有改变过一丁点哪些应用程序可以由单个编码员作为业余项目进行编码并且需要您使用 64 位
Reactive Cocoa 限制信号一次只能发送给一名订阅者

我需要在 RAC 中进行建模我有一个 tabBarController 它将订阅通知信号说推送通知也说当前活动的视图控制器也可能想要订阅相同的信号但是如果任何视图控制器订阅了它 tabBarController 就不想处理它否则它
Spring表单：选择多个选定值？

我有这个编辑表格我希望选择用户的角色如果这是一对多关系我知道我可以这样做
如何使 Redirect.INHERIT 和 System.setOut 一起工作

这可能是一个微不足道的问题但我无法轻易找到答案我有一个简单的 Java 程序 System setOut new PrintStream new File stdout txt ProcessBuilder pb new Process
如何使引导轮播上的文本保持不变，而图像移动？

基本上我让轮播正常工作但我只希望图像能够过渡但每张幻灯片上的文本都相同理想情况下文本不会移动但图像会在背景中移动这是一个例子 http www bootply com pINPxqzlJ2 http www bootply c
ProcessBuilder的正确使用

经过研究我注意到使用 java 的 ProcessBuilder 的正确方法是生成另外两个线程来管理新创建进程的 stdout stderr 的吞噬这样它就不会挂起如下所示 java世界文章 http www javaworld
django.db.utils.ProgrammingError：类型“raster”不存在

我的模型我在这里创建了 3 个模型当我迁移时我收到错误 from django contrib gis db import models from django contrib gis db models fields import
Maven 无法使用 OpenJDK 11 找到 jaxb-api，即使它存在于存储库中

我有一台装有 Windows 操作系统的机器它用于构建一些 WAR 项目它有已安装 Java 8在上面我在用Maven 3 2 5构建这些 WAR 项目一切正常但由于 Java 8 由于免费更新的结束而在未来会成为一个问题所以我
将轮分解添加到不定筛

我正在修改埃拉托色尼的不定筛here https stackoverflow com a 10733621因此它使用轮分解来跳过比当前仅检查所有赔率的形式更多的组合我已经弄清楚了如何生成到达轮子上所有间隙所需的步骤从那里我想我可以用
Azure DevOps 扩展中的节点密码警告 - 发布任务

我正在开展一个开发 Azure DevOps 发布任务扩展的项目最近当发布任务运行时我在日志中多次打印此警告消息警告使用 Cipheriv 作为 aes 256 ctr 的计数器模式我没有更早得到它当我开始收到此错误时我只更
C 到 MIPS - 函数和数组

我正在尝试将以下 C 代码转换为 MIPS 程序集数组的基地址存储在 a0中变量索引存储在 a1中变量 x 存储在 t0 中 void ld array char array int index x array index 当索引是一
如何通过 Grails 使用 imgscalr

我最近几天才开始使用 Groovy 和 Grails 我之前没有任何 Java 经验所以您必须原谅这个可能非常基本的问题我搜索了 Google 和 Stack Overflow 但没有找到任何可以帮助我实际安装的内容我已经可以上传
Elasticsearch 通过另一个文档查找文档

我想在elasticsearch中搜索与id docId给定文档具有完全相同字段的文档例如用户使用 docId 调用 api 我想过滤文档以便返回的所有文档都满足 docId 中的某些参数例如我可以像这样查询 Elasticsear
TypeScript“保存时编译”功能在 Visual Studio 2015 中不起作用

升级到 Visual Studio 2015 后保存时编译功能对我不起作用当我对 ts将文件添加到我的项目中并保存 IDE 底部的状态栏显示Output s generated successfully 但是生成的 js文件没有改变
Linux/C下判断两个文件路径是否指向同一个文件？

在Linux下我有两个文件路径A和B const char A const char B 我现在想确定我是否应该open 2 他们俩 int fda open A int fdb open B 我会在文件系统中打开同一个文件的两个文件句
Asp.Net Mvc 3 客户端验证、属性生成

Asp net Mvc3 在输入元素上添加了一些自定义属性例如 data val required 以执行验证我知道这背后的所有理论以及它是如何运作的我想知道的是当我在 using Html BeginForm 中创建表单时它会
如何使用seaborn为我的DataFrame创建堆积条形图[重复]

这个问题在这里已经有答案了我有一个数据框df df pd DataFrame columns App Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Feature7 Featu
如何解析非结构化表状数据？

我有一个text file保存操作的一些结果数据显示在human readable format 就像一张桌子我如何解析这些数据以便形成一个数据结构例如dictionaries有了这个数据的一个例子unstructured dat

如何解析非结构化表状数据？

如何解析非结构化表状数据？ 的相关文章

随机推荐

热门标签

如何解析非结构化表状数据？的相关文章