如何将 SAP .txt 提取转换为 .csv 文件

2024-03-23

我有一个 .txt 文件,如下面报告的示例所示。我想将其转换为 .csv 表,但我没有取得太大成功。

Mack3                                            Line Item Journal                                        Time 14:22:33     Date  03.10.2015
Panteni    Ledger 1L                                                                                    TGEPIO00/CANTINAOAS Page      20.001
--------------------------------------------------------------------------------------------------------------------------------------------
|    Pstng Date|Entry Date|DocumentNo|Itm|Doc..Date |BusA|PK|SG|Sl|Account   |User Name   |LCurr|      Amount in LC|Tx|Assignment        |S|
|------------------------------------------------------------------------------------------------------------------------------------------|
|    07.01.2014|07.02.2014|4919005298| 36|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             0,85 |  |20140107          | |
|    07.01.2014|07.02.2014|4919065298| 29|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             2,53 |  |20140107          | |
|    07.01.2014|07.02.2014|4919235298| 30|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |            30,00 |  |20140107          | |
|    07.01.2014|07.02.2014|4119005298| 32|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             1,00 |  |20140107          | |
|    07.01.2014|07.02.2014|9019005298| 34|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |            11,10 |  |20140107          | |
|------------------------------------------------------------------------------------------------------------------------------------------|

相关文件的结构与 SAP 的报告相同。练习 python 并查看其他帖子我发现了这段代码:

    with open('file.txt', 'rb') as f_input:
        for line in filter(lambda x: len(x) > 2 and x[0] == '|' and x[1].isalpha(), f_input):
            header = [cols.strip() for cols in next(csv.reader(StringIO(line), delimiter='|', skipinitialspace=True))][1:-1]
            break
    with open('file.txt', 'rb') as f_input, open(str(ii + 1) + 'output.csv', 'wb') as f_output:
        csv_output = csv.writer(f_output)
        csv_output.writerow(header)
        for line in filter(lambda x: len(x) > 2 and x[0] == '|' and x[1] != '-' and not x[1].isalpha(), f_input):
            csv_input = csv.reader(StringIO(line), delimiter='|', skipinitialspace=True)
            csv_output.writerow(csv_input)

不幸的是,它不适用于我的情况。事实上,它创建了空的 .csv 文件,并且似乎无法正确读取 csv_input。

有什么可能的解决办法吗?


一旦我们过滤掉几行,即不以管道符号开头的行,您的输入文件就可以被视为 CSV'|'后面跟一个空格' ',这会给我们留下这样的结果:



|    Pstng Date|Entry Date|DocumentNo|Itm|Doc..Date |BusA|PK|SG|Sl|Account   |User Name   |LCurr|      Amount in LC|Tx|Assignment        |S|
|    07.01.2014|07.02.2014|4919005298| 36|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             0,85 |  |20140107          | |
|    07.01.2014|07.02.2014|4919065298| 29|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             2,53 |  |20140107          | |
|    07.01.2014|07.02.2014|4919235298| 30|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |            30,00 |  |20140107          | |
|    07.01.2014|07.02.2014|4119005298| 32|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |             1,00 |  |20140107          | |
|    07.01.2014|07.02.2014|9019005298| 34|07.01.2019|    |81|  |  |60532640  |tARFooWMOND |EUR  |            11,10 |  |20140107          | |
  

你的输出主要是空的,因为x[1].isalpha()检查此数据永远不会正确。每行位置 1 的字符始终是空格,而不是字母。

不需要多次打开输入文件,我们可以一次性读取、过滤并写入输出:

import csv

ii = 0

with open('file.txt', 'r', encoding='utf8', newline='') as f_input, \
     open(str(ii + 1) + 'output.csv', 'w', encoding='utf8', newline='') as f_output:

    input_lines = filter(lambda x: len(x) > 2 and x[0] == '|' and x[1] == ' ', f_input)

    csv_input = csv.reader(input_lines, delimiter='|')
    csv_output = csv.writer(f_output)

    for row in csv_input:
        csv_output.writerow(col.strip() for col in row[1:-1])

Notes:

  • 你应该not读取文本文件时使用二进制模式。使用r and w模式,并显式声明文件编码。选择适合您的文件的编码。
  • 对于与csv模块,打开文件newline=''(这让csv模块选择正确的行结尾)
  • 您可以将多个文件包装在with语句使用\在线的末尾。
  • StringIO完全没有必要。
  • 我没有使用skipinitialspace=True因为有些列的末尾也有空格。因此我打电话.strip()写入行时手动处理每个值。
  • The [1:-1]有必要摆脱多余的空列(在第一个之前和最后一个之后)|在输入中)

输出如下



Pstng Date,Entry Date,DocumentNo,Itm,Doc..Date,BusA,PK,SG,Sl,Account,User Name,LCurr,Amount in LC,Tx,Assignment,S
07.01.2014,07.02.2014,4919005298,36,07.01.2019,,81,,,60532640,tARFooWMOND,EUR,"0,85",,20140107,
07.01.2014,07.02.2014,4919065298,29,07.01.2019,,81,,,60532640,tARFooWMOND,EUR,"2,53",,20140107,
07.01.2014,07.02.2014,4919235298,30,07.01.2019,,81,,,60532640,tARFooWMOND,EUR,"30,00",,20140107,
07.01.2014,07.02.2014,4119005298,32,07.01.2019,,81,,,60532640,tARFooWMOND,EUR,"1,00",,20140107,
07.01.2014,07.02.2014,9019005298,34,07.01.2019,,81,,,60532640,tARFooWMOND,EUR,"11,10",,20140107,
  
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 SAP .txt 提取转换为 .csv 文件 的相关文章

随机推荐

  • 允许使用 HTMLPurifier 的 data-* 属性

    目前我将此代码与 HTMLPurifier 一起使用以允许data HTML标签属性 def config gt getHTMLDefinition true def gt addAttribute div data aaa Text de
  • 为什么 JPanel 下的 JButton 仍然有反应?

    我四处寻找我的问题 但找不到答案 所以我在这里 我有一个 JLayeredPane 里面有 2 个 JPanel 最深的 最下面 有 JButtons 第二个 上面的那个 具有部分透明的背景颜色 尽管我认为这不会影响它 现在 当我将鼠标悬停
  • 在 Notepad++ 中格式化代码

    Notepad 中是否有用于格式化代码的键盘快捷键 我主要处理 HTML CSS 和 Python 代码 例如 To
  • 将列从 NVARCHAR 更改为 BINARY

    我不小心创建了一个类型错误的列NVARCHAR 用于存储密码盐 我想将其转换为NVARBINARY I tried ALTER TABLE dbo TableName ALTER COLUMN ColumnName varbinary 20
  • 如何在golang中将unicode(例如:\u2713)代码转换为rune(例如:✓)?

    code var checkMark u2713 stand for rune 以及如何将unicode u2713 转换为符文 并打印它 有谁可以帮助我 非常感谢 就好像你有一个像 u2713 u2715 这样的字符串 在操场上看http
  • 使用 IPython 逐步调试

    据我了解 Python 中有两种调试代码的方法 使用传统的调试器 例如pdb or ipdb 这支持诸如c for continue n for step over s for step into等 但您无法直接访问 IPython she
  • 错误:运算符不存在:数字 ~* 未知

    我需要创建domainPostgreSQL 中的价格 价格必须是NUMERIC 9 2 其中 9 是精度 2 小数位数 尝试创建域时获取 ERROR operator does not exist numeric unknown Hint
  • 使用 PHP 显示外部 Web 根文件夹中的所有图像

    我想显示存储在我的网络根文件夹之外的所有图像 请帮我 我只能重复显示一张图像 例如 如果我的文件夹中有 5 张图像 则只有一张图像在我的浏览器上显示 5 次 请帮我解决这个问题 我已经研究这个问题一个多月了 我是新手 帮助 谢谢 这是我正在
  • 根据点值更改瀑布图颜色

    我想根据图表值更改瀑布图的颜色 例如 如果值为负 则设置红色 如果值为正 则设置绿色 我从下面得到了代码excel vba根据点值更改数据点的条形图颜色 https stackoverflow com questions 13849488
  • 将 RGB PNG 转换为 CMYK JPEG(使用 ICC 颜色配置文件)

    我需要将 PNG 文件转换为 CMYK JPEG 在我的研究过程中 我发现了多篇关于 SO 的文章描述了这个问题 我已经复制了这个答案 https stackoverflow com questions 380678 how to set
  • 如何使用纯 CSS 在 HTML 中获取一棵树

    我正在尝试遵循这个tutorial http odyniec net articles turning lists into trees 这是my code https github com gurjeet CSSTree so far 本
  • python 使用 for 循环将用户输入添加到空列表中

    所以我想使用此代码将用户输入添加到空列表中 no of num int input enter the number of numbers you would like to add n this will store the number
  • 在经典ASP页面调用存储过程

    我一整天都在努力从经典 ASP 页面调用存储过程 我有一些基本的菜鸟问题 首先 这是向我的命令添加参数的最佳方法吗 cmd Parameters Append cmd CreateParameter SubmissionDate adDBT
  • 如何使用 cmp 将排序从 python 2 转换为 python 3?

    我正在尝试将用 python 2 编写的代码转换为 python 3 nums 30 31 num sort cmp lambda x y cmp y x x y 不知道如何在 python 3 中做到这一点 因为 cmp 被删除了 我相信
  • 测试 Dart 值是否实际上是一个函数?

    是否可以测试一个值是否是一个可以调用的函数 我可以轻松测试 null 但之后我不知道如何确保传入的参数实际上是一个函数 void myMethod funcParam if funcParam null How to test if fun
  • 检查 VSTS 中以前的构建信息(VSTS API)

    在执行 VSTS 构建期间是否可以访问以前的构建变量 例如 我可以获得先前构建的 Build SourceVersion 或 Build QueuedBy 吗 我可以通过 Build SourceVersion 等构建变量获取当前构建信息
  • 使用 LDAP 用户名作为实体名称

    我正在使用 Hashicorp Vault 1 9 0 并且启用了 LDAP 身份验证方法 该方法按预期正常工作 但有一个问题 LDAP 是我们独特的身份验证方法 当然 除了令牌之外 并且 LDAP 用户不是提前在 Vault 中创建的 因
  • 在 PHP 中搜索并获得双重结果

    这是我的 PHP 代码 我用它从 PHPMyAdmin 的数据库 Mysql 中进行搜索 但是当我得到结果时 它显示双倍 我不明白为什么是双的 如果它是 for foreach 循环 那么我将使用什么来代替它 请帮我解决代码
  • Python (CherryPy) Web 应用程序部署在本地,但在 Intranet 上不可见

    我使用 CherryPy 创建了一个 Python Web 应用程序 并部署在我的本地计算机上 当我尝试从家里的另一台计算机上查看它时 没有任何结果 但是 如果我创建一个简单的 html 文件 并使用以下命令部署它 python m Sim
  • 如何将 SAP .txt 提取转换为 .csv 文件

    我有一个 txt 文件 如下面报告的示例所示 我想将其转换为 csv 表 但我没有取得太大成功 Mack3 Line Item Journal Time 14 22 33 Date 03 10 2015 Panteni Ledger 1L