如果值匹配，则自动比较 2 个 csv 文件的值，将第二个 csv 读入 DataFrame

2024-01-29

我已将 Excel 导入到数据框中。它看起来像这样：

然后我使用代码根据“tx_id”对这些数据进行分组，并使用 tx_id 的名称创建单独的 csv，这给了我这样的数据（3e6737ae-c3af-4d19-a645-d17fc73dbb7c.csv）。这是代码：

for i, g in dframe.groupby('tx_id'):
     g.to_csv('{}.csv'.format(i.split('/')[0]), index=False)

然后我创建了一个仅包含 tx_id 的单独 dframe，然后使用以下代码删除了重复项：

dframe1 = dframe1.drop_duplicates()

现在我的数据框看起来像这样：

我已将此数据框转换为 csv。现在我想将 csv 文件的名称（即 tx_id 值）与新创建的 csv 中存在的数据进行比较，如果名称匹配，我想将 csv 文件（即 tx_id 值）读入数据框。我曾经手动导入这些 csv 文件，但我有一个很大的数据集，每次读取数据并对其进行进一步处理是不可行的。现在我正在做的是将 csv 文件单独导入到数据框中。我正在使用这段代码：

df = pd.read_csv(' ae229a81-bb33-4cf1-ba2f-360fffb0d94b.csv')

这给了我这样的结果：

然后我使用以下代码将其拆开并应用 value_counts：

df1 = df.groupby('rule_id')['request_id'].value_counts().unstack().fillna(0)

最终结果看起来像这样：

我想自动化这个过程，但我不知道如何做。你们能帮我吗？

你可以迭代你的tx_id并将数据帧附加到list:

import pandas as pd

dfs = []
for tx in dframe1['tx_id']:
    dfs.append(pd.read_csv('%s.csv' % tx))

仅当它在与 csv 文件相同的目录中执行时才有效。否则：

import os
import pandas

dfs = []

for tx in dframe1['tx_id']:
    dfs.append(pd.read_csv(os.path.join('/path/to/csv/', '%s.csv' % tx)))

Editted

如果您想应用一些功能，而不是直接附加数据框：

for tx in dframe1['tx_id']:
    df = pd.read_csv(os.path.join('/path/to/csv/', '%s.csv' % tx))
    dfs.append(df.groupby('rule_id')['request_id'].value_counts().unstack().fillna(0))

现在你的dfs拥有所有value_counts()结果。您可以使用索引来引用它们。

如果您想使用文件名查找它们，请使用dict:

df_dict = dict()
for tx in dframe1['tx_id']:
    df = pd.read_csv(os.path.join('/path/to/csv/', '%s.csv' % tx))
    df_dict[tx] = df.groupby('rule_id')['request_id'].value_counts().unstack().fillna(0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如果值匹配，则自动比较 2 个 csv 文件的值，将第二个 csv 读入 DataFrame 的相关文章

如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

可重用预处理器 __COUNTER__

我正在做一些模板元编程主要是编写我自己的编译时间列表但我也有一些预处理器魔法我想用它们来使事情变得更容易如果可能的话我想做的是创建一个函子的编译时列表该部分已完成但用于简化创建并添加到列表中的宏尚未完成简单举个例子 te
如何实现Web应用程序的屏幕共享？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Prologue 我想问如何创建在网络上共享桌面屏幕的解决方案但后来发现有很多这样的问题这个任务非常复杂无法用几个字符串来回答
如何防止我的 .Net dll 被添加为引用？

假设我编写了一个 Net dll 并希望将其与我的应用程序一起分发我怎样才能防止任何有能力安装 VS 副本的用户向自己的应用程序添加对此 dll 的引用无法阻止用户添加引用这是 DLL 部分的被动操作您无法采取任何措施来阻止它发生
如果不存在则创建

我有一个 Django 应用程序它从 Web API 读取数据并将其放入数据库中有没有办法从模式创建新对象但如果对象已经存在则可以防止重复异常换句话说有没有办法保存一个对象但如果它已经存在则什么都不做 Model object
通过 Powershell 在 IIS 7.5 中启用模拟

我希望有人可以提供帮助我正在尝试在 IIS 7 的身份验证会话下启用 ASP Net 模拟我已使用以下命令启用了其他部分 Set WebConfigurationProperty filter system WebServer secu
在 Perl 中启动非等待后台进程

我有一个 Perl 脚本需要在后台启动另一个进程并退出而不等待其他脚本完成 StackOverflow 上有很多线程介绍如何在 Perl 中等待或如何不等待其他编程语言但我似乎找不到 Perl 的正确答案我已经阅读了相当多的内容并
为什么 foreach %dopar% 每增加一个节点就会变慢？

我编写了一个简单的矩阵乘法来测试网络的多线程并行化功能我注意到计算速度比预期慢得多 The Test很简单乘以 2 个矩阵 4096x4096 并返回计算时间矩阵和结果都不被存储计算时间并非微不足道 50 90 秒具体取决于您的
如何向枚举添加多个属性？

我有一个名为的 SQL 查找表客户信用解决计划行动类型我想转换为enum questions tagged enum in c questions tagged c 23 非常基本的要求对吧正确的我的桌子现在enum questio
co_await 似乎不是最理想的？

我有一个异步函数 void async foo A a B b C c function
IE11框架通知栏保存按钮

在装有 MS Excel 2010 和 IE11 的 64 位系统上我使用此代码自动从网站下载过程 hWnd FindWindowEx IE hWnd 0 Frame Notification Bar vbNullString If hW
如何将文件读入整数数组

在我的应用程序文档文件夹中我有一个文件我试图将其逐字节读入数组UInt8其中每个元素代表一个字节我该怎么做呢该文件恰好名为 Q1 dat 这是我不成功的尝试 func readArray gt Int if let arrayPat
使用 angular2 显示/隐藏密码文本

我想根据用户点击显示隐藏密码文本但我收到以下错误消息 export class App password secret show false ContentChild ShowHideInput input ShowHideInput
同一手臂上不同类型的模式匹配

我想知道当两个或多个不同的枚举类型具有相同的数据成员或相同的函数时是否有一种方法可以简化以下模式匹配臂如果没有最好解释一下原因 UPDATE 根据要求提供我想要的更准确的示例请原谅我将数据成员访问与函数混淆 struct Point
Hibernate 验证器：@Email 接受ask@stackoverflow 为有效吗？

我正在使用 Email用于验证电子邮件地址的注释我遇到的问题是它接受诸如ask stackoverflow作为有效的电子邮件地址我想这是因为他们想支持 Intranet 地址但我似乎找不到标志所以它确实检查扩展名我真的需要切换到
将 ListView 绑定到 ListProperty

在tornadoFX中是否可以将ListView绑定到ListProperty 我有一个如下所示的 ViewModel class MyVm ItemViewModel
使用带有 nginx 的 React 路由器应用程序获取 404 [重复]

这个问题在这里已经有答案了我有一个反应前端应用程序它使用反应路由器来创建不同的路线在开发服务器上它工作正常但是当我构建项目时它给我 404 同时直接使用不同的路由访问它网站完美打开xyz net 当我尝试使用以下命令访问它时它
使用 ssh 访问存储库

昨天我发现了 git 这样的东西的存在我需要使用 ssh 访问远程存储库我使用了命令 git clone email protected cdn cgi l email protection email protected cdn cg
用于创建事件处理程序存根的 Visual Studio 键盘快捷键

当您在设计视图中编辑简单页面时只需双击相关事件即可在大多数组件上添加事件这将完成绑定并在代码隐藏中为您生成函数声明在页面复杂的大型项目中设计视图可能会非常慢有没有一种方法可以直接从代码快速生成代码隐藏存根 aspx source
linq Last() 如何确定最后一项？

我不明白 Current 如何可以为 null 而 LINQ 函数 Last 可以返回一个对象我认为 Last 使用 GetEnumerator 并一直持续到 current null 并返回对象然而正如您所看到的第一个 GetEn
如果值匹配，则自动比较 2 个 csv 文件的值，将第二个 csv 读入 DataFrame

我已将 Excel 导入到数据框中它看起来像这样然后我使用代码根据 tx id 对这些数据进行分组并使用 tx id 的名称创建单独的 csv 这给了我这样的数据 3e6737ae c3af 4d19 a645 d17fc73dbb7

如果值匹配，则自动比较 2 个 csv 文件的值，将第二个 csv 读入 DataFrame

如果值匹配，则自动比较 2 个 csv 文件的值，将第二个 csv 读入 DataFrame 的相关文章

随机推荐

热门标签