Pandas 中的固定宽度文件操作

2023-12-25

我有一个具有以下格式的固定宽度文件：

5678223313570888271712000000024XAXX0101010006461801325345088800.0784001501.25abc@yahoo.com                                        
5678223324686600271712000000070XAXX0101010006461801325390998280.0784001501.25abc[email protected] /cdn-cgi/l/email-protection                             5678123422992299

这是我尝试过的：

import pandas as pd

ColSpecs = [(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143)]

df = pd.read_fwf("~/filename.txt",colspecs=ColSpecs,Header=True)

现在这肯定可以帮助我干净地转换为 Pandas 格式。但是，空白（或固定的空白）会被修剪掉。例如：电子邮件字段（#8）有 50 个固定字符集。一旦导入到 Pandas 数据框中，它们就会被截断。

对于数据操作，我创建了 3 个新字段，这些字段是从之前导入的字段的值中提取的。

最终输出文件结构：

[(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143) ,(143,153),(153,163),(164,165)]

因为，我还没有在数据帧上找到任何 to_fwf 方法，也没有找到 Pandas -> Flat File （保持原始长度完整）的任何其他替代方法，如果有人有更好的解决方案，我将非常感激。

附：：我读到 Unix 中的 awk/sed 效果更好，但仍然想知道 Python 的情况

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

fixedwidth

Pandas 中的固定宽度文件操作的相关文章

从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru

随机推荐

如何静默安装 UWP appx？

我开发了一个UWP appx 它可以在cmd exe提示符下安装 C test gt myapp appx 但安装过程中会弹出一个 Windows GUI 有什么方法吗使用静默参数安装它如下所示 C test gt myapp appx
表格列格式

我正在尝试格式化一列 table table 用一个
解析 HTML：Python 中的 lxml 错误

我正在编写一个简单的脚本来从中获取大灰色表here http www afi com 100years movies10 aspx 我的代码如下 import urllib2 from lxml import etree html urll
Jquery，使用 json 自动完成，id 与显示值

我有一个复杂的自动完成问题这是我正在开发的网站的消息系统我希望它能够在您输入用户名的地方工作它会返回用户的图像姓名和 ID 的缩略图然后当您选择它时我希望它显示用户名但当它发回时我希望它发回他们的 ID 因为用户名不是唯一
PHP文件加密方法。存在简单的东西吗？

似乎没有任何令人愉快的方法来加密 php 中的文件 php 的内置方法 mcrypt 不太可移植因为大多数服务器不支持它们命令行加密工具就像丑陋的黑客对字符串进行加密这很好但如果我们想加密一个文件它并没有多大帮助特别是对其他人解
将对话框保持在窗口顶部，但不是在所有内容之上

在我的 WPF 应用程序中我有很多弹出的自定义对话框以便用户可以使用以下命令执行各种操作someDialogClass ShowDialog 为了确保对话框位于调用它的窗口顶部我添加Topmost True to the Window
实体框架中使用 OR 条件的动态查询

我正在创建一个应用程序来搜索数据库并允许用户动态添加任何条件大约 50 个可能的条件就像下面的问题一样使用实体框架创建动态查询 https stackoverflow com q 5541234 810850 我目前正在进行一项检查每
焦点事件发生变化？

我正在将 Visual Basic 6 程序移植到 PyQt 我需要调用一个函数来设置某些小部件始终启用禁用我不想调用一个函数太多次所以我发现了一个事件当焦点从一个小部件更改为另一个小部件时我可以调用我的小部件管理器功能我正在
在Python中的一个图中叠加热图

我有两个 100x100 矩阵 u 0 and u 1 我已将两个数组的值设置在 0 和 1 之间以使用 matplotlib 函数制作热图pcolormesh 我可以使用以下方法获得一张热图 fig1 plt pcolormesh u
使用 loc 时的 Pandas SettingWithCopyWarning [重复]

这个问题在这里已经有答案了关于使用 loc 进行索引切片分配的一般问题假设以下数据帧 df df A B C 0 a b 1 a b 2 b a 3 c c 4 c a 重现代码 df pd DataFrame A list aabc
如何在 SQL Server 中转置查询结果（行到列）

我的查询给出的结果如下所以我想将结果转换成这样请注意带有 NULL 值的交叉字段 PIVOT 是实现这一目标的方法一开始它可能会令人困惑至少对我来说是这样 https www codeproject com Tips 500811
使用 PHP cURL 进行缓存

我正在使用 PHP cURL 从另一个网站获取信息并将其插入到我的页面中我想知道是否可以将获取的信息缓存在我的服务器上例如当访问者请求某个页面时系统会获取该信息并在我的服务器上缓存 24 小时然后该页面将完全在本地提供 24 小
在虚拟环境中将包安装到全局站点包中

让我先声明我已阅读过pip 安装在全局站点包中而不是 virtualenv https stackoverflow com questions 20952797 pip installing in global site packages
PySpark - 按列的值拆分/过滤 DataFrame

我有一个与此示例类似的 DataFrame Timestamp Word Count 30 12 2015 example 1 3 29 12 2015 example 2 1 28 12 2015 example 2 9 27 12 20
跨 docker 容器共享内存

如果使用 Java MQ 类而不是 JTA 将 Websphere MQ 用作 XA 分布式事务事务管理器则 Java 应用程序和 WMQ 都需要驻留在同一主机上有人告诉我这是因为共享内存被用作进程间通信机制 Java 应用程序和
将 Iterator<(A,B)> 拆分为 Iterator 和 Iterator

我想分割实现的对象的输出Iterator lt A B gt 分成两个实现的对象Iterator a and Iterator b 由于其中一个输出的迭代次数可能多于另一个因此我需要缓冲Iterator lt A B gt 因为我不能依赖

将 Patreon API 与 Flutter 应用程序链接

我对使用 Flutter 很陌生在没有帮助的情况下从未正确使用过 API 我想让我的应用程序免费没有大量广告所以我希望创建一个 Patreon 来支持它的维护当在线寻找教程视频或任何可用于 Flutter 或我知道如何使用的其他语言

解释错误：“构造函数……无法应用：实际长度和形式长度不同”

请帮我修复这个错误类 C10h1 CollegeMember 中的构造函数 CollegeMember 不能适用于给定类型必需 java lang String java lang String 发现没有参数原因实际论证和形式论

在 Javascript 中增加 CSS padding-top 属性

我有一个 CSS 定义为div myDiv padding top 20px padding bottom 30px 在 JS 函数中我想增加padding top by 10px function DoStuff var myDiv d

Pandas 中的固定宽度文件操作

我有一个具有以下格式的固定宽度文件 5678223313570888271712000000024XAXX0101010006461801325345088800 0784001501 25abc yahoo com 56782233246

热门标签

堆和栈的区别

怎么查看进程窗口

线程安全的单例

实时互动

堆叠直方图

C中对容器的操作

linuxhook

baichuan7B

etl工程师

22 media开发

Windows开发

上传漏洞

一元试用虚拟服务器

SD卡写入

oled屏

神奇的css

牛客力扣

剧本

资源清单

Pandas 中的固定宽度文件操作

Pandas 中的固定宽度文件操作 的相关文章

随机推荐

热门标签

Pandas 中的固定宽度文件操作的相关文章