Pandas 中的固定宽度文件操作

2023-12-25

我有一个具有以下格式的固定宽度文件:

5678223313570888271712000000024XAXX0101010006461801325345088800.0784001501.25abc@yahoo.com                                        
5678223324686600271712000000070XAXX0101010006461801325390998280.0784001501.25abc[email protected] /cdn-cgi/l/email-protection                             5678123422992299

这是我尝试过的:

import pandas as pd

ColSpecs = [(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143)]

df = pd.read_fwf("~/filename.txt",colspecs=ColSpecs,Header=True)

现在这肯定可以帮助我干净地转换为 Pandas 格式。但是,空白(或固定的空白)会被修剪掉。例如:电子邮件字段(#8)有 50 个固定字符集。一旦导入到 Pandas 数据框中,它们就会被截断。

对于数据操作,我创建了 3 个新字段,这些字段是从之前导入的字段的值中提取的。

最终输出文件结构:

[(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143) ,(143,153),(153,163),(164,165)]

因为,我还没有在数据帧上找到任何 to_fwf 方法,也没有找到 Pandas -> Flat File (保持原始长度完整)的任何其他替代方法,如果有人有更好的解决方案,我将非常感激。

附: :我读到 Unix 中的 awk/sed 效果更好,但仍然想知道 Python 的情况


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 中的固定宽度文件操作 的相关文章

  • 从 Python 下载/安装 Windows 更新

    我正在编写一个脚本来自动安装 Windows 更新 我可以将其部署在多台计算机上 这样我就不必担心手动更新它们 我想用 Python 编写这个 但找不到任何关于如何完成此操作的信息 我需要知道如何搜索更新 下载更新并从 python 脚本安
  • 在Python中如何获取字典的部分视图?

    是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素 开头 结尾等 dict 就像是 dict head 3 To see the first 3
  • 从sklearn PCA获取特征值和向量

    如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
  • Pyqt-如何因另一个组合框数据而更改组合框数据?

    我有一个表 有 4 列 这 4 列中的两列是关于功能的 一个是特征 另一个是子特征 在每一列中 所有单元格都有组合框 我可以在这些单元格中打开txt 我想 当我选择电影院作为功能时 我只想看到子功能组合框中的电影名称 而不是我的 数据 中的
  • Python 使用 Gstreamer 访问 USB 麦克风时遇到问题,以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

    所以Python的表现就好像它根本听不到我的麦克风发出的任何声音 问题就在这里 我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像 我在用着脉冲音频我的设备是树莓派 我的
  • Python tkinter.filedialog Askfolder 干扰 clr

    我主要在 Spyder 中工作 构建需要弹出文件夹或文件浏览窗口的脚本 下面的代码在spyder中完美运行 在 Pycharm 中 askopenfilename工作良好 同时askdirectory什么都不做 卡住了 但是 如果在调试模式
  • 更改 x 轴比例

    我使用 Matlab 创建了这个图 使用 matplotlib x 轴绘制大数字 例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
  • 如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

    Problem 我有一个 pandas 数据框 我试图从中提取特定行 我感兴趣的行是包含日期的行 以及紧随日期行之后的行 重要的是 我想将信息从日期后面的行移动到包含日期的行中的新列 通过这样做 我将在同一行上获得 一个人 的信息 需要明确
  • 在相同任务上,Keras 比 TensorFlow 慢

    我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征 我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时 我将会话保存在变量中 感谢 jdehesa 并
  • Alembic:如何迁移模型中的自定义类型?

    My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
  • 对使用 importlib.util 导入的对象进行酸洗

    我在使用Python的pickle时遇到了一个问题 我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块 如下所示 import importlib util spec importlib util sp
  • 如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页?

    我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称 过滤器参数 的方法azure mgmt datafactory DataFactoryManageme
  • 使用 Conda 更新特定模块会删除大量软件包

    我最近开始使用 Anaconda Python 发行版 因为它提供了许多开箱即用的数据分析库 使用 conda 创建环境和安装软件包也轻而易举 但是当我想更新 Python 本身或任何其他模块时 我遇到了一些严重的问题 我事先被告知我的很多
  • 为什么我应该使用 WSGI?

    使用 mod python 一段时间了 我读了越来越多关于 WSGI 有多好的文章 但没有真正理解为什么 那么我为什么要切换到它呢 有什么好处 这很难吗 学习曲线值得吗 为了用 Python 开发复杂的 Web 应用程序 您可能会使用更全面
  • 使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目,例如哈佛风格

    我正在使用 Django 并将 bibtex 存储在我的模型中 并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用 使其看起来像哈佛引用样式 使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
  • 合并数据框而不重复行

    我想合并两个数据框 但如果有多个匹配项 则不想重复行 相反 我想总结一下那天的观察结果 来自 合并 提取两个数据框中与指定列匹配的行并将其连接在一起 如果有多个匹配项 则所有可能的匹配项各贡献一行 这是一些示例代码 days lt as d
  • 使用 NLP 进行地址分割

    我目前正在开发一个项目 该项目应识别地址的每个部分 例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
  • 从 python 检测 macOS 中的暗模式

    我正在编写一个 PyQt 应用程序 我必须添加一个补丁 以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
  • Python对象初始化性能

    我只是做了一些快速的性能测试 我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍 这些可能是错误的术语 我不确定这里的行话 例如 gt gt gt import timeit gt gt gt print timeit timeit
  • bs4 `next_sibling` VS `find_next_sibling`

    我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性 我不会得到任何返回 但如果用作find next sibling or find next 然后就可以了 来自doc https www cru

随机推荐

  • 如何静默安装 UWP appx?

    我开发了一个UWP appx 它可以在cmd exe提示符下安装 C test gt myapp appx 但安装过程中会弹出一个 Windows GUI 有什么方法吗 使用静默参数安装它 如下所示 C test gt myapp appx
  • 表格列格式

    我正在尝试格式化一列 table table 用一个
  • 解析 HTML:Python 中的 lxml 错误

    我正在编写一个简单的脚本来从中获取大灰色表here http www afi com 100years movies10 aspx 我的代码如下 import urllib2 from lxml import etree html urll
  • Jquery,使用 json 自动完成,id 与显示值

    我有一个复杂的自动完成问题 这是我正在开发的网站的消息系统 我希望它能够在您输入用户名的地方工作 它会返回用户的图像 姓名和 ID 的缩略图 然后 当您选择它时 我希望它显示用户名 但当它发回时 我希望它发回他们的 ID 因为用户名不是唯一
  • PHP文件加密方法。存在简单的东西吗?

    似乎没有任何令人愉快的方法来加密 php 中的文件 php 的内置方法 mcrypt 不太可移植 因为大多数服务器不支持它们 命令行加密工具就像丑陋的黑客 对字符串进行加密这很好 但如果我们想加密一个文件 它并没有多大帮助 特别是对其他人解
  • 将对话框保持在窗口顶部,但不是在所有内容之上

    在我的 WPF 应用程序中 我有很多弹出的自定义对话框 以便用户可以使用以下命令执行各种操作someDialogClass ShowDialog 为了确保对话框位于调用它的窗口顶部 我添加Topmost True to the Window
  • 实体框架中使用 OR 条件的动态查询

    我正在创建一个应用程序来搜索数据库并允许用户动态添加任何条件 大约 50 个可能的条件 就像下面的问题一样 使用实体框架创建动态查询 https stackoverflow com q 5541234 810850 我目前正在进行一项检查每
  • 焦点事件发生变化?

    我正在将 Visual Basic 6 程序移植到 PyQt 我需要调用一个函数来设置某些小部件始终启用 禁用 我不想调用一个函数太多次 所以我发现了一个事件 当焦点从一个小部件更改为另一个小部件时 我可以调用我的小部件管理器功能 我正在
  • 在Python中的一个图中叠加热图

    我有两个 100x100 矩阵 u 0 and u 1 我已将两个数组的值设置在 0 和 1 之间 以使用 matplotlib 函数制作热图pcolormesh 我可以使用以下方法获得一张热图 fig1 plt pcolormesh u
  • 使用 loc 时的 Pandas SettingWithCopyWarning [重复]

    这个问题在这里已经有答案了 关于使用 loc 进行索引 切片分配的一般问题 假设以下数据帧 df df A B C 0 a b 1 a b 2 b a 3 c c 4 c a 重现代码 df pd DataFrame A list aabc
  • 如何在 SQL Server 中转置查询结果(行到列)

    我的查询给出的结果如下 所以 我想将结果转换成这样 请注意带有 NULL 值的交叉字段 PIVOT 是实现这一目标的方法 一开始它可能会令人困惑 至少对我来说是这样 https www codeproject com Tips 500811
  • 使用 PHP cURL 进行缓存

    我正在使用 PHP cURL 从另一个网站获取信息并将其插入到我的页面中 我想知道是否可以将获取的信息缓存在我的服务器上 例如 当访问者请求某个页面时 系统会获取该信息并在我的服务器上缓存 24 小时 然后 该页面将完全在本地提供 24 小
  • 在虚拟环境中将包安装到全局站点包中

    让我先声明我已阅读过pip 安装在全局站点包中而不是 virtualenv https stackoverflow com questions 20952797 pip installing in global site packages
  • PySpark - 按列的值拆分/过滤 DataFrame

    我有一个与此示例类似的 DataFrame Timestamp Word Count 30 12 2015 example 1 3 29 12 2015 example 2 1 28 12 2015 example 2 9 27 12 20
  • 跨 docker 容器共享内存

    如果使用 Java MQ 类 而不是 JTA 将 Websphere MQ 用作 XA 分布式事务 事务管理器 则 Java 应用程序和 WMQ 都需要驻留在同一主机上 有人告诉我这是因为共享内存被用作进程间通信机制 Java 应用程序和
  • 将 Iterator<(A,B)> 拆分为 Iterator 和 Iterator

    我想分割实现的对象的输出Iterator lt A B gt 分成两个实现的对象Iterator a and Iterator b 由于其中一个输出的迭代次数可能多于另一个 因此我需要缓冲Iterator lt A B gt 因为我不能依赖
  • 将 Patreon API 与 Flutter 应用程序链接

    我对使用 Flutter 很陌生 在没有帮助的情况下从未正确使用过 API 我想让我的应用程序免费 没有大量广告 所以我希望创建一个 Patreon 来支持它的维护 当在线寻找教程视频或任何可用于 Flutter 或我知道如何使用的其他语言
  • 解释错误:“构造函数……无法应用:实际长度和形式长度不同”

    请帮我修复这个错误 类 C10h1 CollegeMember 中的构造函数 CollegeMember 不能 适用于给定类型 必需 java lang String java lang String 发现 没有参数 原因 实际论证和形式论
  • 在 Javascript 中增加 CSS padding-top 属性

    我有一个 CSS 定义为div myDiv padding top 20px padding bottom 30px 在 JS 函数中 我想增加padding top by 10px function DoStuff var myDiv d
  • Pandas 中的固定宽度文件操作

    我有一个具有以下格式的固定宽度文件 5678223313570888271712000000024XAXX0101010006461801325345088800 0784001501 25abc yahoo com 56782233246