我有一个text file
保存操作的一些结果。数据显示在human-readable format
(就像一张桌子)。我如何解析这些数据,以便形成一个数据结构,例如dictionaries
有了这个数据?
的一个例子unstructured data
如下所示。
===============================================================
Title
===============================================================
Header Header Header Header Header Header
1 2 3 4 5 6
---------------------------------------------------------------
1 Yes No 6 0001 0002 True
2 No Yes 7 0003 0004 False
3 Yes No 6 0001 0001 True
4 Yes No 6 0001 0004 False
4 No No 4 0004 0004 True
5 Yes No 2 0001 0001 True
6 Yes No 1 0001 0001 False
7 No No 2 0004 0004 True
上例中显示的数据不是tab-separated
or comma separated
。它总是有一个header
相应地,可能/可能没有值column-like
外貌。
我尝试过使用基本的解析技术,例如regex
and conditional checks
,但我需要一种更强大的方法来解析这些数据,因为上面显示的示例并不是呈现数据的唯一格式。
Update 1:除了所示的示例之外,还有很多情况,例如添加更多列、单个单元格具有多个实例(但在下一行中直观地显示,而它属于上一行)。
有没有python
库可以解决这个问题吗?
Can machine learning
技术可以帮助解决这个问题而无需解析吗?如果是,这是什么类型的问题(分类、回归、聚类)?
===============================================================
Title
===============================================================
Header Key_1 Header Header Header Header
1 Key_2 3 4 5 6
---------------------------------------------------------------
1 Value1 No 6 0001 0002 True
Value2
2 Value1 Yes 7 0003 0004 False
Value2
3 Value1 No 6 0001 0001 True
Value2
4 Value1 No 6 0001 0004 False
Value2
5 Value1 No 4 0004 0004 True
Value2
6 Value1 No 2 0001 0001 True
Value2
7 Value1 No 1 0001 0001 False
Value2
8 Value1 No 2 0004 0004 True
Value2
Update 2:它可能看起来像的另一个示例涉及具有多个实例的单个单元格(但在下一行中直观地显示,而它属于上一行)。