pd.read_csv 忽略括号内的逗号

2024-04-17

我有一个非常简单的文件：

[Name]
Streamline 1


[Data]
X [ m ], Y [ m ], Z [ m ], Velocity [ m s^-1 ]
2.66747564e-01, 0.00000000e+00, 2.03140453e-01, (0.00000000e+00, 8.17744827e+00, 0.00000000e+00)
2.66958952e-01, 0.00000000e+00, 2.07407191e-01, (0.00000000e+00, 6.77392197e+00, 0.00000000e+00)
2.63460875e-01, 0.00000000e+00, 2.06593186e-01, (0.00000000e+00, 7.04168701e+00, 0.00000000e+00)
2.65424699e-01, 0.00000000e+00, 2.00831652e-01, (0.00000000e+00, 8.93691921e+00, 0.00000000e+00)
2.70607203e-01, 0.00000000e+00, 2.02286631e-01, (0.00000000e+00, 8.45830917e+00, 0.00000000e+00)
2.68299729e-01, 0.00000000e+00, 1.97365344e-01, (0.00000000e+00, 1.00771456e+01, 0.00000000e+00)
...

我需要将速度作为向量加载到单行中。

我的基本代码：

df = pd.read_csv("C:/Users/Marek/Downloads/0deg-5ms.csv", skiprows=5)

但这种尝试导致第 2 列成为索引，其余的分成 4 列。index_col=False可以解决索引的问题，但是会导致索引超出范围。我需要一个分隔符来隐式告诉 pandas 忽略括号中的任何内容。我想python在读取csv文件时忽略带括号的分隔符 https://stackoverflow.com/questions/58087497/python-ignore-the-separator-withing-brackets-while-reading-a-csv-file可能有用，但是是的，我到处都有空间。我找到了一些使用扩展函数来加载文件并按行处理的解决方案，例如包含括号中偶尔出现逗号的列的 CSV 文件会导致 pandas.read_csv 崩溃 https://stackoverflow.com/questions/55580933/csv-file-containing-column-with-occasional-comma-in-parentheses-crashes-pandas-r and 将带有括号括起来的数据的 CSV 加载到 pandas 数据框中 https://stackoverflow.com/questions/46259548/load-csv-with-data-surrounded-by-parentheses-into-a-pandas-dataframe。然而，我相信这是一个非常简单的场景，因为所有行都是相似的，可以通过单行添加来解决delimiter='some_regex'。然而我无法弄清楚这个正则表达式应该是什么样子。它应该寻找分隔符,但不是(.*,.*).

我尝试过以下操作，但这会产生一列：

df = pd.read_csv("C:/Users/Marek/Downloads/0deg-5ms.csv", skiprows=5,  delimiter=',^(\(.*,.*\))')

编辑：得到这样的东西 -,|(?:($.*,.*$))，但这会在每个逗号后添加一个空列。

您可以手动解析该文件：

data = []
with open('data.csv') as fp:
    [next(fp) for i in range(5)]  # skiprows=5
    headers = [c.strip() for c in next(fp).split(',')]
    for line in fp:
        data.append([i.strip() for i in re.split(r',(?![^\(]*[\)])', line)])

df = pd.DataFrame(data, columns=headers).apply(pd.eval)

Output:

>>> df
    X [ m ]  Y [ m ]   Z [ m ]     Velocity [ m s^-1 ]
0  0.266748      0.0  0.203140  [0.0, 8.17744827, 0.0]
1  0.266959      0.0  0.207407  [0.0, 6.77392197, 0.0]
2  0.263461      0.0  0.206593  [0.0, 7.04168701, 0.0]
3  0.265425      0.0  0.200832  [0.0, 8.93691921, 0.0]
4  0.270607      0.0  0.202287  [0.0, 8.45830917, 0.0]
5  0.268300      0.0  0.197365  [0.0, 10.0771456, 0.0]

>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   X [ m ]              6 non-null      float64
 1   Y [ m ]              6 non-null      float64
 2   Z [ m ]              6 non-null      float64
 3   Velocity [ m s^-1 ]  6 non-null      object 
dtypes: float64(3), object(1)
memory usage: 320.0+ bytes

>>> type(df.iloc[0, 3])  # [0.0, 8.17744827, 0.0]
list

>>> type(df.iloc[0, 3][1])  # 8.17744827
float

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pd.read_csv 忽略括号内的逗号的相关文章

在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
Perl：HTTP::微小删除留下损坏的锚标记

我编写了一个脚本该脚本收集从数据库读取的缓冲区内的所有 URL 检查该页面是否仍然存在并使用 HTTP Tiny 从缓冲区中删除 URL 如果该 URL 无法访问或返回无效问题是 HTTP Tiny 删除左锚标记例如此处无效的文本
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

向 Shiny 应用程序添加多个反应图和表格

我正在开发一个闪亮的应用程序在我工作的过程中我一直在以随意的方式添加数字和表格我希望有一个更好的框架以便随着它的进一步发展我可以灵活地将反应性图形和表格添加到输出中目前我一直在使用 tabPanel 和 Fluidrow 添加
使用 Log4Net 格式化日期时间

我想在使用 Log4Net 编写的日志文件中显示时间戳 HH mm ss 我希望该值采用中部时间但我不希望出现偏移量理想情况下我希望它能够阅读
HMVC 和动态小部件

背景我使用小部件一词作为具有自己的控制器因此有自己的操作的部分视图并且它几乎放置在所有页面中我通过 HMVC 实现了它的渲染这非常棒 Problem 现在的问题是小部件本身执行操作考虑一下购物车小部件该小部件被放置在所有
jQuery 1.6 中可能存在的错误 - $(...).attr("checked") 不起作用

我的表单上有两个单选按钮直到我开始使用 jQuery 1 6 为止以下代码工作正常
React：第一次点击时状态未更新

我正在制作购物车样本每次单击时我都会将项目的对象添加到购物车数组中当我第一次单击添加购物车按钮时它不会更新购物车但第二次会更新不过当我单击渲染器返回语句中的 viewCart 按钮时它会显示购物车中的准确商品数量请参阅
Rails 的 utc_to_local 和夏令时

gt e Event first gt e registration start utc registration start utc is a datetime column gt Sat 23 Oct 2010 06 38 00 UTC
PooledRedisClientManager 未释放连接

我将 json 数据列表存储在 redis 中并使用 ServiceStack c 客户端访问它我本质上是在管理自己的外键我在其中存储zrangeid 我使用应用程序内部的接口从zrange然后从 Redis 获取底层 json 对象并
通过 Plumbing 命令查看 Git 分支状态

有什么办法可以得到输出git branch v作为管道命令确切地说我只对分支的状态感兴趣即它是否是 gone or not 例如给出以下内容git branch v output gt git branch v master 32c5
我应该在混合 Objective-C / Swift 项目中使用 Realm Objective-C 还是 Realm Swift？

我的项目使用 Swift 并面向 iOS 8 0 及更高版本但我们使用旧 Objective C 项目中的一些文件并通过 CocoaPods 引入一些 Objective C 库我应该在这个项目中使用哪个 Realm 接口 Objec
AxInterop 和 Interop 有什么区别？

我已将 ocx 添加到 VS 的工具箱中创建了两个 dll Interop NNN dll AxInterop NNN dll 每一个是什么两者都需要吗 Interop xxx dll 和 AxInterop xxx dll 分别是引用
Xcode 10 不支持 SVN (Subversion)

新安装的Xcode 10 测试版版本看不到 SVN 的选项Xcode gt Preferences gt Source Control 我可以单独看到 Git 我猜 Xcode 10 删除了 SVN GUI 而是仅支持 Git 或者我错过
计算 data.table 中的记录数并生成每组内的行号

我有以下数据表 set seed 1 DT lt data table VAL sample c 1 2 3 10 replace TRUE VAL 1 1 2 2 3 2 4 3 5 1 6 3 7 3 8 2 9 2 10 1 With
Angular 5 设置 HTML Select 元素的选定值

这是我想做的
具有不同范围的多个 AngularJS 指令

您好我在同一页面上有两个弹出指令问题是当我点击其中一个时它们都会弹出如何将每个范围相互隔离以便仅弹出单击的弹出窗口 HTML
以编程方式截取屏幕截图不会捕获 surfaceVIew 的内容

我有一个应用程序我希望能够捕获屏幕截图布局的背景是一个 SurfaceView 显示来自后置摄像头的视频下面的代码可以截图但是surfaceView的内容保存为黑色这是代码 btn setOnClickListener new O
Flurry iOS 崩溃报告分析

过去几天我一直在尝试使用 Flurry 在 iPad 应用程序上使用 Flurry 测试崩溃报告但没有取得太大成功当我在线查看 Flurry 仪表板时它没有显示任何崩溃报告虽然我可以看到 Flurry Dashboard 中注册的其
使用 DownloadManager 获取下载状态

我进行了很多搜索但找不到满意的答案我只是创建了一个方法当调用时在 Log i 中打印所有可用的下载状态方法如下 DownloadManager downloadManager DownloadManager getSystemSe
对向量进行排序而不改变原始向量的最佳方法是什么？

正如标题所说我正在寻找一种在不修改原始向量的情况下对向量进行排序的方法我的第一个想法当然是在排序之前创建向量的副本例如 std vector
使用 C# 将 LINQ 查询字段中的字符串转换为 Int 进行比较（高度）

我正在尝试使用 linq 查询当我尝试以某种方式转换高度值时我在运行时遇到错误 Error LINQ to Entities 无法识别方法 Int32 ToInt32 System String 方法并且该方法无法翻译到存储表达式中
pd.read_csv 忽略括号内的逗号

我有一个非常简单的文件 Name Streamline 1 Data X m Y m Z m Velocity m s 1 2 66747564e 01 0 00000000e 00 2 03140453e 01 0 00000000e 0

pd.read_csv 忽略括号内的逗号

pd.read_csv 忽略括号内的逗号 的相关文章

随机推荐

热门标签

pd.read_csv 忽略括号内的逗号的相关文章