计算csv文件中python中的特定出现次数

2023-12-12

我有一个包含 4 列的 csv 文件{标签、用户、质量、Cluster_id}。使用 python 我想执行以下操作：对于每个 cluster_id （从 1 到 500），我想查看每个用户的好标签和坏标签的数量（从质量列获得）。有超过6000名用户。我只能逐行读取 csv 文件中的内容。因此，我不确定如何做到这一点。

例如：

Columns of csv = [Tag User Quality Cluster]   
Row1= [bag  u1  good     1]  
Row2 = [ground u2 bad   2]  
Row3 = [xxx  u1 bad  1]  
Row4 = [bbb  u2 good 3]

我刚刚设法获取 csv 文件的每一行。

我一次只能访问每一行，不能有两个 for 循环。我要实现的算法的伪代码是：

for cluster in clusters:  
    for user in users:  
        if eval == good:  
            good_num = good_num +1  
        else:  
            bad_num = bad_num + 1

collections.defaultdict在这里应该有很大的帮助：

# WARNING: Untested
from collections import defaultdict

auto_vivificator = lambda: defaultdict(auto_vivificator)

data = auto_vivificator()

# open your csv file

for tag, user, quality, cluster in csv_file:
    user = data[cluster].setdefault(user, defaultdict(int))
    if is_good(quality):
        user["good"] += 1
    else:
        user["bad"] += 1

for cluster, users in enumerate(data):
    print "Cluster:", cluster
    for user, quality_metrics in enumerate(users):
       print "User:", user
       print quality_metrics
       print  # A blank line

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

计算csv文件中python中的特定出现次数的相关文章

AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
如何配置 VS Code 以便能够单步执行调试 Python 脚本时加载的共享库 (.so)？

从命令行使用 gdb 我可以在加载共享库时中断知道我有共享库的源代码如何在 VS Code 中获得相同的行为对我来说它以某种方式起作用这是我的设置 Ubuntu 18 04 调试我从 Python3 加载的 C 共享库更具体地说
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
在Langchain中，为什么ConversationalRetrievalChain不记住聊天记录并为每个聊天输入新的ConversationalRetrievalChain链？

我正在尝试使用 langchain 创建一个客户支持系统我通过 TextLoader 使用文本文档作为外部知识提供者为了记住聊天我使用 ConversationalRetrievalChain 和聊天列表我的问题是每次执行时con
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
如何在Python中绘制“Trace Explorer”？

我需要重新创建一个情节踪迹浏览器 https www bupar net trace explorer html与下面在 R 中创建的类似我希望使用 matplotlib 但找不到任何有关如何执行这样的跟踪资源管理器的示例或参考有人能
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
pythonic方式来反转一个字典，其中值是列表？

我有一本看起来像这样的字典 letters by number 1 a b c d 2 b d 3 a c 4 a d 5 b c 我想将其反转为如下所示 numbers by letter a 1 3 4 b 1 2 5 c 1 3 5
为什么del是Python中的指令而不是方法？ [复制]

这个问题在这里已经有答案了为什么Python的创建者更喜欢这种语法指令 del list index 超过这个方法 list del index 在我看来这del属于同一类别 append remove find ETC 因此应该
Plotly：如何制作具有多条线和标准差阴影区域的图形？

How can I use Plotly to produce a line plot with a shaded standard deviation I am trying to achieve something similar to
lxml 属性需要完整的命名空间

下面的代码使用 lxml python 3 3 从 Excel 2003 XML 工作簿中读取表格该代码工作正常但是为了通过 get 方法访问 Data 元素的 Type 属性我需要使用键 urn schemas microsoft
在 python 中以半小时为增量创建选择列表

我正在尝试创建一个
从 DST 感知日期时间对象在 Dataframe 中创建 pandas DatetimeIndex

我从在线 API 收集了一系列数据点每个数据点都有一个值和一个 ISO 时间戳不幸的是我需要循环它们所以我将它们存储在临时的dict然后从中创建一个 pandas 数据帧并将索引设置为时间戳列简化示例 from datetime i
使用 cv2 在 python 中创建多通道零垫

我想用 cv2 opencv 包装器在 python 中创建一个多通道 mat 对象我在网上找到了一些例子其中 c Mat zeros 被 numpy zeros 替换这看起来不错但似乎没有多通道类型适合看代码 import cv
如何为 matplotlib 中已绘制的线设置标签？

在我的代码中我已经执行了 ax plot x y b 并且需要能够在事后设置相应行的标签以达到与我相同的效果 ax plot x y b label lbl 有没有办法在 Matplotlib 中做到这一点如果你抓住了line2D创建对
无法使用 pandas 获取平均日期

我有一个时间序列数据集我想从中获取平均日期这是一个人为的示例显示 pandas datetime64 对象的溢出错误 import pandas as pd import numpy as np rng pd date range 2
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
AWS Cognito 作为网站的 Django 身份验证后端

我对 Cognito 的理解是它可以用来代替本地 Django 管理数据库来对网站的用户进行身份验证然而我没有找到任何带有通过 Cognito 登录屏幕的基本 Hello World 应用程序的详细示例如果有人可以发布一篇文章逐步
在 Python 中将主题标头添加到 server.sendmail()

我正在编写一个 python 脚本来从终端发送电子邮件在我目前发送的邮件中它没有主题我们如何为此电子邮件添加主题我当前的代码 import smtplib msg From email protected cdn cgi l ema

随机推荐

正则表达式 - 从字符串中提取电话号码

我需要从带有分隔符波形符的字符串中提取两个电话号码棘手的部分是电话号码的格式可能会有所不同字符串模式保持不变但电话号码的格式可以是以下三种类型之一 1 4 digit extensions ex 1001 2 10 digit 5
Jenkins 持续集成服务器的作业特定 SVN 签出文件夹

我刚刚设置了一个新的 Jenkins CI 服务器这是我昨天刚安装的最新版本我已经完成了几个工作正常的构建我有几个不同的存储库它可以从中提取和构建其中大多数适用于 NET 项目等易于在任何地方构建的项目因此只需在工作区文件夹中签
带有 GoDaddy 证书的 HTTP SSL - 此服务器的证书链不完整

一般来说我从 GoDaddy 获得了 3 个文件主证书文件服务器私钥捆绑文件通过以下方式在我的 Go 服务器中配置了所有这些文件 cert err tls LoadX509KeyPair myalcoholist pem myal
访问 Struts 2 中的所有用户会话

我正在使用 JPA 构建 struts 2 应用程序用户可以多次登录该应用程序我想用户能够在网格中查看他的所有会话并可能突出显示当前会话并且用户可以选择一个会话并终止它管理员还应该能够查看所有登录的用户还可以查看每个登录用户的
如何更改元素的内部文本而不更改其子元素

我有一个 html 元素例如 div Change only me div but not me div div 但我只想更改第一个文本并保留子 div 不变 document getElementById el1 innerText c
Jquery 自动完成 utf-8 字符区分大小写

我正在使用 jquery 自动完成插件来搜索一长串名称它适用于所有拉丁语和英语字符但对于土耳其语字符我遇到问题因为搜索将区分大小写例如 A and a将匹配包含以下内容的所有城市A or a and i不会匹配像这样的城市 stam
Flexbox 内的图像高度在 Chrome 中不起作用

我有一个div using flexbox将其项目居中里面这个div我有 3 个元素其中之一是图像 div div div img src alt div div div container1 and container2有自己的身高
尝试遮盖图像周围的圆圈不起作用

我有一个图像我试图在周围遮盖一个圆圈使图像看起来是圆形的这有点有效但圆圈在顶部和底部达到一个点 profileImageView layer cornerRadius profileImageView frame size widt
Scala 案例类继承

我有一个基于 Squeryl 的应用程序我将模型定义为案例类主要是因为我发现复制方法很方便我有两个严格相关的模型字段是相同的很多操作是共同的并且要存储在同一个DB表中 But有些行为仅在两种情况之一中有意义或者在两种情况下都有
使用 mlflow 提供用于评分的自定义 Python 模型

我使用带有 mlflow 的 ML 软件生成的 Python 代码来读取数据帧执行一些表操作并输出数据帧我能够成功运行代码并将新数据帧保存为工件但是我无法使用 log model 记录模型因为它不是我们训练和拟合的 LR 或分类器
使用WindowManager添加View，但可以按回键

我使用 WindowManager 添加了一个视图它正确地显示了我想做的事情但我有一个问题这就是问题返回键按下不会影响 Android 组件如 Activity 我想要的是我添加的视图可以聚焦可以单击视图的内部按钮仅当单击视图
有没有办法在批处理文件中拥有多种字体、文本大小等？

正如标题所说我不知道是否有任何可能的方法来做这样的事情批处理文件中的粗体斜体字体文本大小以及是否可以在同一文件中使用它们的不同值这可能是不可能的但如果是的话有人可以告诉我怎么做吗注意我不想讨论属性或其他什么我的意思是
创建初始数据库时访问被拒绝 - 如何授予正确的访问权限？

我正在heroku上使用mysql创建一个新项目他们有一个名为JawsDB的插件它为我提供了mysql主机用户名密码更新我也尝试过使用他们的其他 mysql 插件 ClearDB 并且我有完全相同的问题我可以像这样连接到数据库
无法为 python 安装 pandas

我正在尝试为 python 安装 pandas 但我不断收到很长的错误消息所以我尝试了以下方法卸载并重新安装 python 版本 3 10 0 通过命令提示符导航到目录来安装 pandas C Users 用户名 AppData Loc
将特定字符串值映射到 matplotlib.pyplot.imshow() 中的特定颜色

我有一个pandas dataframe看起来像这样 columns 0 1 2 3 4 5 A A A A B B B B B C C D D D E E F F 我想用它来绘制pyplot imshow 指定以下颜色图 color di
如何从 datagridview 创建主详细信息

这段代码插入数据库 private void btnSave Click object sender EventArgs e byte imageBt null FileStream fstream new FileStream this
SQLite 条件插入或替换

我正在尝试将记录插入或更新到 sqlite 数据库中并且仅在新值大于旧值时才更新该值架构是 CREATE table IF NOT EXISTS SearchTable Owner INTEGER PRIMARY KEY Generat
使用 jQuery 进行简单的屏幕抓取

我一直在考虑使用 jQuery 使用简单的屏幕抓取器的想法我想知道以下是否可行我有简单的 HTML 页面并且正在尝试如果可能的话从另一个页面获取所有列表项的内容如下所示主页
计算字符串的所有可能的组合，并进行扭曲

我试图允许用户在文本框中输入文本并让程序生成所有可能的组合但最少 3 个字符和最多 6 个字符除外我不需要像 as 这样无用的单词 a i to 等弄乱了我的数组我还将根据字典检查每个组合以确保它是一个真实的单词我已经完成了字典
计算csv文件中python中的特定出现次数

我有一个包含 4 列的 csv 文件标签用户质量 Cluster id 使用 python 我想执行以下操作对于每个 cluster id 从 1 到 500 我想查看每个用户的好标签和坏标签的数量从质量列获得有超过6000名用

计算csv文件中python中的特定出现次数

计算csv文件中python中的特定出现次数 的相关文章

随机推荐

热门标签

计算csv文件中python中的特定出现次数的相关文章