pandas dataframe read_csv，指定列并将整行保留为字符串

2024-01-10

在 pandas read_csv 中，有没有办法指定例如。 col1、col15、整行？

我试图从一个文本文件导入大约 700000 行数据，该文件以帽子“^”作为分隔符，没有文本限定符，并以回车符作为行分隔符。

在文本文件中，我需要第 1 列、第 15 列，然后是表/数据框三列中的整行。

我已经搜索过如何在 pandas 中执行此操作，但不太了解它以获取逻辑。我可以很好地导入所有 26 列，但这对我的问题没有帮助。

my_df = pd.read_csv("tablefile.txt", sep="^", lineterminator="\r",  low_memory=False)

或者我可以使用标准 python 将数据放入表中，但这需要大约 4 小时才能处理 700000 行。这对我来说太长了。

count_1 = 0
for line in open('tablefile.txt'):
    if count_1 > 70:
        break
    else:
        col1id = re.findall('^(\d+)\^', line)
        col15id = re.findall('^.*\^.*\^(\d+)\^.*\^.*\^.*\^.*\^.*\^.*\^.*\^.*\^.*\^.*\^.*', line)
        line = line.strip()

        count_1 = count_1 + 1

        cur.execute('''INSERT INTO mytable (mycol1id, mycol15id, wholeline) VALUES (?, ?, ?)''', 
        (col1id[0], col15id[0], line, ) )

        conn.commit()
    print('row count_1=',count_1)

在 pandas read_csv 中，有没有办法指定例如。 col1、col15、整行？

如上所示，col1 and col15是数字和wholeline是一个字符串

我不想在导入后重建字符串，因为我可能会在此过程中丢失一些字符。

Thanks

编辑：将每一行提交到数据库非常耗时。

使用一些准分隔符（下面使用 &）将整行作为一个 df 读取，然后使用 usecols 再次读取并指定第 1 列和第 15 列的索引，并将它们添加在一起。

my_df_full = pd.read_csv("tablefile.txt", sep="&", lineterminator="\r", low_memory=False)
my_df_full.columns = ['full_line']

my_df_cols = pd.read_csv("tablefile.txt", sep="^", lineterminator="\r", low_memory=False, usecols=[1,15])

my_df_full[['col1', 'col15']] = my_df_cols

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

import

pandas dataframe read_csv，指定列并将整行保留为字符串的相关文章

如何在Python中循环并存储自变量中的值

我对 python 很陌生所以这听起来可能很愚蠢我进行了搜索但没有找到解决方案我在 python 中有一个名为 ExcRng 的函数我可以对该函数执行什么样的 for 循环以便将值存储在独立变量中我不想将它们存储在列表中而是
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

将输入文本更改为 textarea 就像在 facebook 中一样

我想复制您看到的常规输入文本当您单击它时它会更改为文本区域这是一个隐藏层还是它实际上改变了文本区域的输入怎么做我确实相信它始终是一个文本区域并且在焦点上它们只是改变文本区域的高度编辑是的确实如此他们使用脚本来完成文本区域
如何将sql server中的数据库表结构转换为XML文件？

如何将表架构转换为 XML 格式格式如下
如果没有 div 的 tabindex 属性，Jquery .focus() 无法工作

我怎样才能制作jquery focus 无需设置 div 的 tabindex 即可工作 msgdiv focus div div 对此的最佳实践是什么我想要实现的目标更改密码后我想显示密码已更改的确认消息并将焦点放在该 div 上
计算 OpenCL C 中内核代码的运行时间

我想测量内核代码在各种设备即 CPU 和 GPU 上的性能读取运行时我写的内核代码是 kernel void dataParallel global int A sleep 10 A 0 2 A 1 3 A 2 5 int pnp p
为什么只有在声明自定义构造函数时才必须可以访问基类析构函数？

科莫 g ideone http ideone com cBNwr 和 EDG 接受以下代码而不进行诊断 Visual C 编译成功但出现警告 C4624 class indestructible base indestructible
过程需要类型为“ntext/nchar/nvarchar”的参数“@params”

这是我的存储过程 ALTER PROCEDURE dbo sp Update Projecttijden tabelnaam NVARCHAR 30 starttijd DATETIME eindtijd DATETIME tijd FLO
Git：如何列出合并分支上的提交？

这是如何列出分支上的提交但不列出合并的分支 https stackoverflow com questions 10248137 git how to list commits on this branch but not from mer
复制构造函数如何工作？

C 中的复制构造函数如何工作错误 1 错误 C2064 术语未计算为采用 1 个参数的函数 c users thuan dropbox homework css 342 lab2 lab2 lab2 lab2 cpp 26 include
JavaScript 从时间戳获取日期和时间

我将此字段作为网络响应的一部分 datetime local 2015 02 16T19 00 00 我可以提取日期和时间吗例如我想显示 February 16th at 7pm 这可能吗使用此功能 function getFormat
Objective-C：线程中的服务器请求（如 Android 中的 AsyncTask）

我想发起一个服务器请求你可以取消我的想法是在线程中启动请求以便用户界面不会冻结因此您可以通过单击取消按钮来终止包括请求在内的整个线程对于 Android 它可以工作服务器请求在 AsyncTask 中启动在 onRetu
Groovy - 将 XmlSlurper 与动态路径结合使用

是否可以使用任意路径访问Xml的节点例如给定 xml
银条纹。在 ModelAdmin 中按日期范围搜索

我的数据对象中有日期属性如何在 ModelAdmin 中按日期范围进行搜索例如搜索日期大于 2007 13 01 且小于 2007 17 01 的所有项目或搜索日期在 2007 13 01 和 2007 17 01 之间的所有项目
将 BrowserRequestMode 设置为 NoCors 时，不会发送 HttpClient 授权标头

我正在尝试发送这样的请求 var req new HttpRequestMessage HttpMethod Get requestUri req SetBrowserRequestMode BrowserRequestMode NoCor
如何在Android Studio中查看方法信息

在 Eclipse 中当您将鼠标悬停在某个方法上时会出现一个窗口其中描述了该方法的用途参数的含义以及返回的内容有没有办法让 Android Studio 做同样的事情最简单最直接的方法激活菜单File Settings E
如何在 Java 中交换两个字符串变量而不使用第三个变量

如何在 Java 中交换两个字符串变量而不使用第三个变量即 temp 变量 String a one String b two String temp null temp a a b b temp 但这里还有第三个变量我们需要消除第三个
SVN 提交因语法错误而失败，意外的“[”[重复]

这个问题在这里已经有答案了我尝试将这段代码从我的 Ubuntu 服务器提交到我的服务器 me this gt fetchAll array id gt Id ce gt e array cr gt array slice gt offse
Jinja2/Python 将图像插入 html

我正在考虑将 Jinja2 与我已经编写的 python 应用程序一起使用我可能会以错误的方式处理这个问题但这就是我想做的 from jinja2 import Environment FileSystemLoader from wea
Postgres 竞争条件涉及子选择和外键

我们有 2 个表定义如下 CREATE TABLE foo id BIGSERIAL PRIMARY KEY name TEXT NOT NULL UNIQUE CREATE TABLE bar foo id BIGINT UNIQUE f
在 xcode 4 中使用钥匙串存储用户名和密码

我不想使用NSUserDefaults正如我所知这不是保存用户名和密码的好方法所以我打算使用钥匙扣但我以前从未使用过它们有人可以简单地举一个例子或者给我指出一个例子的方向吗谢谢我用的是开源的SS钥匙扣 https github
pandas dataframe read_csv，指定列并将整行保留为字符串

在 pandas read csv 中有没有办法指定例如 col1 col15 整行我试图从一个文本文件导入大约 700000 行数据该文件以帽子作为分隔符没有文本限定符并以回车符作为行分隔符在文本文件中我需要第 1 列第

pandas dataframe read_csv，指定列并将整行保留为字符串

pandas dataframe read_csv，指定列并将整行保留为字符串 的相关文章

随机推荐

热门标签

pandas dataframe read_csv，指定列并将整行保留为字符串的相关文章