使用 Pandas 读取列数不规则的 CSV 文件

2023-12-03

我正在尝试读取一个 csv 文件，该文件不包含标题行，并且包含不确定数量的列和 pandas。

我已经搜索了如何解决这个问题，但是我找到的所有答案都要求我已经知道（通过打开文件进行搜索）列可以拥有的最大数量并创建一个names=属性上read_csv函数，像这样：

names = ["a", "b", "c", "d"]
table = pandas.read_csv('freqs.tsv', header=None, sep='\t+', names=names)

我的问题是，有没有可能的方法来做到这一点不知道最大列数？为了脚本将来的可重用性，我想概括一下是否可能。

这是我用来运行一些测试的示例文本文件：

mathematics         1.548438245 1.4661764369999999      1.429891562 
english                     1.237816576 1.043399455
physics         2.415563662 11.165497484000001  5.954598265 7.853732762999999   7.929835858
drama           2.0439384830000003  9.81210385  5.068332477 8.579349377 5.962282599999999
health                      1.557941553 1.222267933
science                         1.550193476
gym             1.240610831 1.149375944 1.899408195 1.3713249980000002

谢谢

我得到以下输出

	0	1	2	3	4
mathematics	1.54844	1.46618	1.42989	nan	nan
english	1.23782	1.0434	nan	nan	nan
physics	2.41556	11.1655	5.9546	7.85373	7.92984
drama	2.04394	9.8121	5.06833	8.57935	5.96228
health	1.55794	1.22227	nan	nan	nan
science	1.55019	nan	nan	nan	nan
gym	1.24061	1.14938	1.89941	1.37132	nan

通过写：

import pandas as pd 
# Assume your data is in test.txt in the current working directory 
f = open("test.txt", "r")

# This assumes your spacing is arbitrary 
data = [line.split() for line in f]
data = {line[0] : [float(item) for item in line[1:]] for line in data}
# The orient = "index" allows us to handle differing lengths of entries
df = pd.DataFrame.from_dict(data, orient="index")

# this just provides the above table for printing in StackOverflow
print(df.to_markdown())

请注意，我假设文件中的间距是任意的，因此我们不需要跟踪哪些列是空的，我们只需按空格分割并保留值即可。

另请注意nan表示“不是数字”，如果您有不同长度的行，则您应该在数据框中看到它。

最后，如果您希望主题作为列，请使用df = df.transpose().

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

使用 Pandas 读取列数不规则的 CSV 文件的相关文章

使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

JS：获取contentEditable div中所有选定节点的数组

你好我使用 contentEditable 已经有一段时间了我想我已经很好地处理它了我回避的一件事是如何获取对部分或完全在用户选择范围内的所有节点的引用数组有人有主意吗可以从以下几点开始
导航到不同的 html 页面时，jQuery Mobile 页面事件不会触发

我正在尝试使用导航到不同的 html 页面 mobile changePage PlayGame html transition slideup true true PlayGame html 正在转换为但是以下内容均未触发 docum
我们如何在单个 JSF 页面中使用多个标记或标记？

我的问题是我在一个 JSF 页面中有 2 个表单每个表单都有其
如何使用 UIGestureRecognizer 检测圆周运动

我希望能够检测到某人的手指在屏幕上画圆周运动就像他们在画 O 一样这可以通过 UIGestureRecognizer 实现吗我认为这个问题的答案取决于您对圆周运动的定义以及您打算如何使用它例如您想知道用户手指沿着圆移动了多少度或
根据变量值生成数据总和

我有类似这样的数据 Hosp Score Var1 Var2 Var3 1 0 5 3 0 1 1 10 8 1 1 2 11 8 2 1 3 5 3 2 2 0 6 4 0 2 2 10 6 1 2 3 10 7 2 3 1 4 3 2
当条件不满足时重置 pandas cumsum [重复]

这个问题在这里已经有答案了我经历了不同的 stackoverflow 问题并最终发布它因为我无法解决我面临的问题之一我有一个如下所示的数据框 A B C group1 group1 c 12 group1 group1 c 12 gr
从 PostgreSQL 函数运行 Python 脚本

每次在 PostgreSQL 表上执行更新或插入操作时我都面临一个小问题该脚本将提取更新或插入的数据并将其写入文件环境数据乌班图18 04 仿生海狸 PostgreSQL 10 和 Python 3 6 SELECT FROM
MinGW64 无法进行 32 字节堆栈对齐（Windows x64 上的 AVX 所需），轻松解决或切换编译器？

我正在尝试使用 AVX 指令和 Windows 64 位我对 g 编译器很满意所以我一直在使用它但是报告了一个大错误here并提出了非常粗略的解决方案here 基本上 m256 变量无法在堆栈上对齐才能与 avx 指令一起正常工作
如何确定OGG文件的长度

我正在制作节奏游戏我需要一种快速方法来获取 ogg 文件的长度我能想到的唯一方法是非常快速地传输文件而不播放它但如果我有数百首歌曲这显然是不切实际的另一种方法是将文件的长度存储在某种属性文件中但我想避免这种情况我知道一定有某种
无法在模拟器中启动 AVD：未找到 QT 库

我是 Android Studio 新手在使用模拟器时遇到问题当我尝试运行时它不断崩溃并显示无法在模拟器中启动 AVD 6816 错误 android qt qt setup cpp 28 在以下位置找不到 Qt 库 C Users
Cocoa Interface Builder 的“属性检查器”类似窗口

我正在制作一个 Cocoa 应用程序我想要一个像 Interface Builder 中的属性检查器这样的面板因此顶部有大标签和可折叠可展开的组有谁知道我该怎么做这是属性检查器的图像属性检查器 http developer
PHP mysqli_fetch_all 给我一个空白屏幕

我刚刚将一些内容从本地计算机推送到实时站点但到处都是空白页面当我使用所有东西时我将问题追踪到 mysqli fetch all 它为什么要这样做我该如何解决它如果我使用 mysqli fetch array 或 mysqli fe
如何在 Flutter 中解码 JSON？

如何在 Flutter 中解码 JSON 问题很简单但答案却不简单至少对我来说是这样我有一个使用大量 JSON 字符串的项目基本上应用程序和服务器之间的整个通信都是通过 JSON 进行的我一直在使用JSON decode jso
使用 GPUImage 过滤视频

我在用着GPUImage在我的应用程序中并尝试过滤视频实时视频过滤效果良好当我尝试从文件系统将视频读入内存并使用发布在日落湖软件教程页面和 SimpleVideoFileFilter 演示中 EDIT 我意识到我原来的帖子可能没有提出足
pop_back()返回值？

为什么不pop back 有返回值吗我用谷歌搜索了一下这个问题发现它可以提高效率这是标准中如此规定的唯一原因吗效率与之几乎没有关系或者实际上没有关系这个设计的结果是汤姆卡吉尔的一篇重要论文上世纪 90 年代出版当时引起了相当
Go类型用于函数调用

关键词如go and defer期待一个函数调用作为参数是否有可用的类型可以以相同的方式使用例如编写一个需要函数调用而不是函数作为参数的函数不那里没有你不能对你的函数做同样的事情 go and defer由语言规范支持并且
授权从 Firebase Cloud Function 访问 Google Cloud Translate？

我正在尝试编写一个调用 Google Cloud Translate 的 Firebase Cloud Function 我收到此错误 Error 7 PERMISSION DENIED Cloud IAM permission cloud
使用离子和材料设计登录

我有一个带有侧面菜单等的离子项目现在我想以简单的方式添加并登录很酷的表单例如http ionicmaterial com 但问题是我没有看到任何示例如何将其添加到令人兴奋的项目中它将首先加载登录表单然后重定向到常规页面我的项目看起
将一个整数随机分为 n 部分，可能的结果为零

如何将一个整数随机划分为 n 个部分且可能的结果为零最好是R语言例如要将整数 5 分成 3 部分并执行 4 次我可能会得到以下输出 1 4 0 1 2 2 2 1 3 0 2 3 4 1 1 3 Thanks library pa
使用 Pandas 读取列数不规则的 CSV 文件

我正在尝试读取一个 csv 文件该文件不包含标题行并且包含不确定数量的列和 pandas 我已经搜索了如何解决这个问题但是我找到的所有答案都要求我已经知道通过打开文件进行搜索列可以拥有的最大数量并创建一个names 属性上read

使用 Pandas 读取列数不规则的 CSV 文件

使用 Pandas 读取列数不规则的 CSV 文件 的相关文章

随机推荐

热门标签

使用 Pandas 读取列数不规则的 CSV 文件的相关文章