将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中

2023-12-03

我想将 .data 文件中的数据转换为 .csv 文件，并将 .data 文件中的数据放入其下带有值的列中。但是，.data 文件具有特定的格式，我不知道如何将文本放入列中。 .data 文件如下所示：

column1  
column2  
column3  
column4  
column5  
column6  
column7  
column8  
column9  
column10  
column11  
column12  
column13  
........
column36

1243;6543;5754;5678;4567;4567;4567;2573;7532;6332;6432;6542;5542;7883;7643;4684;4568;4573  
3567;5533;6532;6432;7643;8635;7654;6543;8753;7643;7543;7543;7543;6543;6444;7543;6444;6444  

1243;6543;5754;5678;4567;4567;4567;2573;7532;6332;6432;6542;5542;7883;7643;4684;4568;4573  
3567;5533;6532;6432;7643;8635;7654;6543;8753;7643;7543;7543;7543;6543;6444;7543;6444;6444  

1243;6543;5754;5678;4567;4567;4567;2573;7532;6332;6432;6542;5542;7883;7643;4684;4568;4573  
3567;5533;6532;6432;7643;8635;7654;6543;8753;7643;7543;7543;7543;6543;6444;7543;6444;6444  

1243;6543;5754;5678;4567;4567;4567;2573;7532;6332;6432;6542;5542;7883;7643;4684;4568;4573  
3567;5533;6532;6432;7643;8635;7654;6543;8753;7643;7543;7543;7543;6543;6444;7543;6444;6444

如上所示的文件有 36 列的名称，每列 1 行。下面有许多数据点，其中有 36 个值，用分号分隔。数据点有 2 行长，每个数据点由空行分隔。 .csv 文件必须如下所示：

column1,column2,column3,column4,column5,column6,column7,column8,column9,column10,column11,column12,column14,column15,column16,column17,column18,column20,column20,column21,column22,column23,column24,column25,column26,column27,column28,column29,column30,column31,column32,column33,column34,column35,column36
1243,6543,5754,5678,4567,4567,4567,2573,7532,6332,6432,6542,5542,7883,7643,4684,4568,4573,3567,5533,6532,6432,7643,8635,7654,6543,8753,7643,7543,7543,7543,6543,6444,7543,6444,6444
1243,6543,5754,5678,4567,4567,4567,2573,7532,6332,6432,6542,5542,7883,7643,4684,4568,4573,3567,5533,6532,6432,7643,8635,7654,6543,8753,7643,7543,7543,7543,6543,6444,7543,6444,6444
1243,6543,5754,5678,4567,4567,4567,2573,7532,6332,6432,6542,5542,7883,7643,4684,4568,4573,3567,5533,6532,6432,7643,8635,7654,6543,8753,7643,7543,7543,7543,6543,6444,7543,6444,6444
1243,6543,5754,5678,4567,4567,4567,2573,7532,6332,6432,6542,5542,7883,7643,4684,4568,4573,3567,5533,6532,6432,7643,8635,7654,6543,8753,7643,7543,7543,7543,6543,6444,7543,6444,6444

如上所示的 .csv 文件的第一行必须包含 36 列，其中的名称以逗号分隔。接下来的行必须包含所有数据点，每个数据点占 1 行，其中 36 个值必须用逗号分隔。

您可以使用软件库“pandas”来实现此目的吗？无论如何，这是我的起始代码：

with open("file.data") as fIn, open("file.csv", "w") as fOut:
    for r, line in enumerate(fIn):
        if not line:
            break

Thanks

当然你可以用熊猫做到这一点。你只需要先阅读N行（在您的情况下为 36 行）将它们用作标题并像普通 csv 一样读取文件的其余部分（pandas 擅长于此）。然后你可以保存pandas.DataFrame对象到 csv。

由于您的数据被分成相邻的行，因此我们应该将已读取的 DataFrame 拆分为两行，并将它们逐一堆叠（水平）。

考虑以下代码：

import pandas as pd

COLUMNS_COUNT = 36
# read first `COLUMNS_COUNT` lines to serve as a header
with open('data.data', 'r') as f:
    columns = [next(f).strip() for line in range(COLUMNS_COUNT)]
# read rest of the file to temporary DataFrame
temp_df = pd.read_csv('data.data', skiprows=COLUMNS_COUNT, header=None, delimiter=';', skip_blank_lines=True)
# split temp DataFrame on even and odd rows
even_df = temp_df.iloc[::2].reset_index(drop=True)
odd_df = temp_df.iloc[1::2].reset_index(drop=True)
# stack even and odd DataFrames horizontaly
df = pd.concat([even_df, odd_df], axis=1)
# assign column names
df.columns = columns
# save result DataFrame to csv
df.to_csv('out.csv', index=False)

UPD:更新代码以正确处理分成两行的数据

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中的相关文章

使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
如何将 Excel 或 CSV 文件加载到 Firebird 中？

我在用着Firebird http www firebirdsql org数据库我需要将 Excel 文件加载到数据库表中我需要一个能很好地完成这项工作的工具我尝试了一些在谷歌上找到的东西但它们都有一些错误由于 Excel 数据不
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

javascript 将数字除以小数

我怎样才能将数字钱平均除以x数该数字可以包含一位或两位小数也可以不包含小数 such as 1000 or 100 2 or 112 34我希望能够将该数字平等地分成 x 部分但是如果它不是奇数则将额外的数字添加到最后一个数字
在现有 SqlConnection 中打开 DbContext 连接

我感兴趣是否打开实体框架DbContext现有 ADO NET 中的连接SqlConnection如果它们都使用相同的连接字符串即在完全相同的数据库上操作那么应该不鼓励吗例如 using TransactionScope scope
将 jRadioButton 添加到 jTable 中

我正在尝试添加jRadioButton into jTable 我使用了给定的代码 private class CustomCellRenderer extends DefaultTableCellRenderer non Javadoc
将 CSV 字符串与 IN 运算符一起使用时出错

当我运行以下代码时 declare aaa nvarchar 10 set aaa 1 2 3 Select from Customer where CustomerId in convert nvarchar aaa 10 我收到此错误
如何在 Django 中创建模型包

拥有相当大的models py文件包含多个模型我正在尝试重构每个文件一个模型因此我试图创建一个models包结构如下 app models init py app models first model py app models
使用jquery取消选中复选框时隐藏文本

默认情况下会选中复选框如果未选中他们应该隐藏文本如何隐藏或显示 jquery 中的文本 html div class check p p div
SQLiteException 没有被捕获

我试图捕获 android database sqlite SQLiteException 错误代码 5 数据库已锁定异常 try db insert mytable null myvalues catch SQLiteException
如何在 dplyr 中按降序排列奇数，按升序排列偶数

我在 r 中有以下数据框 ID bay row number 1 43 11 ABC 2 43 6 DEF 3 43 13 QWE 4 43 15 XDF 5 43 4 VGH 6 43 2 TYU 7 11 11 QAS 8 11 13
SQL Server - 不聚合的行到列

我的数据看起来像这样 address id 12AnyStreet 1234 12AnyStreet 1235 12AnyStreet 1236 12AnyStreet 1237 我的目标是让它看起来像这样 Address id1 id2
Cloud Dataflow - Dataflow 如何实现并行性？

我的问题是在幕后对于逐元素 Beam DoFn ParDo 云数据流如何并行工作负载例如在我的 ParDO 中我向外部服务器发送一个针对一个元素的 http 请求我使用了 30 个工人每个工人有 4vCPU 这是否意味着每个工
如何以二维风格指定单元测试文件夹

我有一个具有二维风格的项目例如风味维度设备水果移动香蕉移动苹果香蕉 stbApple 所有构建结果都很好我只想进行单元测试stbApple当选择构建变体在 Android Studio 中如何实现这一目标我尝试过以下实验
JSR 363 的 UCUM 单位格式

我正在使用 JSR 363 测量单位和最新的参考实现
rpy2 - “R”对象没有属性“nls”

我正在使用 rpy2 在 python 中的 r 中进行一些非线性回归 import rpy2 robjects as robjects from rpy2 robjects import DataFrame Formula from rp
Python - Urllib2 等待页面加载以抓取数据

首先我想说我不想使用 Python 2 7 10 未提供的任何库同样的问题也发布在 Stack Overflow 上但在 Requests 库中得到了解答我有一个使用 urllib2 登录 Roblox com 的脚本为了在尝试登
AngularJS：从模型数组中拼接模型元素时，ng-repeat 列表不会更新

我有两个控制器并通过 app factory 函数在它们之间共享数据单击链接时第一个控制器会在模型数组 pluginsDisplayed 中添加一个小部件小部件被推送到数组中并且此更改反映到视图中使用 ng repeat 来显示
如何找到至少2个向量中共有的元素？

假设我有 5 个向量 a lt c 1 2 3 b lt c 2 3 4 c lt c 1 2 5 8 d lt c 2 3 4 6 e lt c 2 7 8 9 我知道我可以使用以下方法计算它们之间的交集Reduce 和一起inters
C++ 失败时 istream 行为发生变化

取自参考参数直到 C 11 如果提取失败例如如果在需要数字的地方输入了字母则值保持不变并设置失败位自 C 11 起如果提取失败则将零写入值并设置失败位如果提取结果导致值太大或太小而无法适应值 std numeric lim
使用产品风味时，每种风味中哪些文件是常见的，哪些文件是该风味特有的？

productFlavors India USA 我们以两种产品口味为例 1 印度 2 美国构建变体的总数将为 4 1 印度调试 2 印度发布 3 美国调试 4 美国发布哪些文件对于所有风格都是通用的哪些文件是特定于风格以及调试和发布
如何在 Coq 中自动证明实数的简单相等？

我正在寻找的是auto类似的策略可以证明简单的等式例如 1 2 2 4 到目前为止我手动尝试过的是使用ring simplify and field simplify来证明等式即使这样效果也不好 Coq 8 5b3 下面的例子有效 R
将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中

我想将 data 文件中的数据转换为 csv 文件并将 data 文件中的数据放入其下带有值的列中但是 data 文件具有特定的格式我不知道如何将文本放入列中 data 文件如下所示 column1 column2 column3 c

将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中

将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中 的相关文章

随机推荐

热门标签

将数据从 .data 文件转换为 .csv 文件，并使用 pandas 将数据放入列中的相关文章