Pandas：将列与数据帧的所有其他列进行比较

2024-02-20

我有一个场景，我有新的受试者正在测试一系列特征，其中结果都是字符串分类值。测试完成后，我需要将新数据集与所有受试者的主数据集进行比较，并寻找给定阈值（例如 90%）的相似性（匹配）。

因此，我需要能够以尽可能最佳的性能对新数据集中的每个新主题与主数据集中的每一列以及新数据集中的其他列进行柱状（按主题）比较因为生产数据集大约有 50 万列（并且还在增长）和 10,000 行。

这是一些示例代码：

master = pd.DataFrame({'Characteristic':['C1', 'C2', 'C3'], 
                                   'S1':['AA','BB','AB'],
                                   'S2':['AB','-','BB'],
                                   'S3':['AA','AB','--']})
new = pd.DataFrame({'Characteristic':['C1', 'C2', 'C3'], 
                                'S4':['AA','BB','AA'],
                                'S5':['AB','-','BB']})
new_master = pd.merge(master, new, on='Characteristic', how='inner')  

def doComparison(comparison_df, new_columns, master_columns):
  summary_dict = {}
  row_cnt = comparison_df.shape[0]

  for new_col_idx, new_col in enumerate(new_columns):
      # don't compare the Characteristic column
      if new_col != 'Characteristic':
        print 'Evalating subject ' + new_col + ' for matches'
        summary_dict[new_col] = []
        new_data = comparison_df.ix[:, new_col]
        for master_col_idx, master_col in enumerate(master_columns):
            # don't compare same subject or Characteristic column
            if new_col != master_col and master_col != 'Characteristic':
                master_data = comparison_df.ix[:, master_col]
                is_same = (new_data == master_data) & (new_data != '--') & (master_data != '--')
                pct_same = sum(is_same) * 100 / row_cnt
                if pct_same > 90:
                    print '  Found potential match ' + master_col + ' ' + str(pct_same) + ' pct'
                    summary_dict[new_col].append({'match' : master_col, 'pct' : pct_same})
  return summary_dict

result = doComparison(new_master, new.columns, master.columns)

这种方法可行，但我想提高效率和性能，但不知道如何实现。

另外一个选择

import numpy as np
import pandas as pd
from sklearn.utils.extmath import cartesian

利用 sklearn 的笛卡尔函数

col_combos = cartesian([ new.columns[1:], master.columns[1:]])
print (col_combos)

[['S4' 'S1']
 ['S4' 'S2']
 ['S4' 'S3']
 ['S5' 'S1']
 ['S5' 'S2']
 ['S5' 'S3']]

为 new 中除特征之外的每一列创建一个带有键的字典。请注意，这似乎是浪费空间。也许只保存那些有火柴的？

summary_dict = {c:[] for c in new.columns[1:]} #copied from @Parfait's answer

Pandas/Numpy 可以轻松比较两个系列。
例子;

print (new_master['S4'] == new_master['S1'])

0     True
1     True
2    False
dtype: bool

现在我们迭代 Series 组合并借助 numpy 的 count_nonzero() 来计算 True。其余的与你所拥有的类似

for combo in col_combos:
    match_count = np.count_nonzero(new_master[combo[0]] == new_master[combo[1]])
    pct_same = match_count * 100 / len(new_master)
    if pct_same > 90:
        summary_dict[combo[0]].append({'match' : combo[1], 'pct': match_count / len(new_master)})

print (summary_dict)

{'S4': [], 'S5': [{'pct': 1.0, 'match': 'S2'}]}

我很想知道它的表现如何。祝你好运！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

analytics

datascience

Pandas：将列与数据帧的所有其他列进行比较的相关文章

HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
使用 python-docx 在 docx 文件中查找所有“正常”样式且字体大小不是 11 的文本

到目前为止我的实现 from docx api import Document import pandas as pd from docx shared import Pt texts sizes document Document new
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
Java 相当于 Python 的 urllib.urlencode（基于 HashMap 的 UrlEncode）

From https stackoverflow com questions 2018026 should i use urllib or urllib2 2018103 2018103 Java 中 Python 的 urllib url
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程
Pandas DataFrame 自定义 agg 函数奇怪的行为

我想使用自定义函数沿轴聚合 Pandas DataFrame 但我无法弄清楚该函数应返回什么 df pd DataFrame np arange 50 reshape 10 5 您可以将 numpy 函数传递给DataFrame agg C
将自定义属性添加到 Tk 小部件

我的主要目标是向小部件添加隐藏标签或字符串之类的内容以在其上保存简短信息我想到创建一个新的自定义 Button 类在本例中我需要按钮它继承所有旧选项这是代码 form tkinter import class NButton Bu

随机推荐

Python：字典列表，如何获取列表中多个项目的特定键的值？

我有一个字典列表例如 dict list key1 dict1 value1 key2 dict1 value2 key3 dict1 value3 key1 dict2 value1 key2 dict2 value2 key3 dic
每行创建多边形并保留列

早上好下午好或晚上好我已将一些位置数据分组到 1 小时的分组中对于每个我都提取了最小的纬度和经度它看起来像这样 df lt ID time bin count lat lon maxlat minlat maxlon minlon
nginx 连接到 .sock 失败（13：权限被拒绝）- 502 错误网关

我正在使用 nginx uwsgi django 在 centos7 上部署我的第一个站点它们在测试中单独工作得很好但我在尝试将它们连接在一起时遇到了 502 bad gateway var log nginx error log 文件
D3.js：折线图 - 工具提示和悬停垂直线

我一直在研究使用 D3 js 构建的交互式折线图一次悬停时我希望工具提示以垂直线显示垂直线效果很好但是我遇到了与工具提示相关的问题工具提示位置不在图表上我只获取第一个数据元素这是我的代码 margin top 20 righ
如何减小 iPython 笔记本的文件大小？

我有一个 IPython 笔记本虽然里面的代码只有 100 行左右但它有几兆字节大我认为它那么大因为我在里面加载了几张图像我想将此笔记本添加到 git 存储库但是我不想上传那么大的东西这样很容易再次生成是否可以仅保存 IP
C# 如何反序列化嵌入文本中的 xml 标签？

我正在尝试使用 XmlSerializer 反序列化 NET 的 XML 文档注释的输出作为参考 xml 文档的输出如下所示
在循环内部还是外部声明变量更好？

最好这样做 variable1Type foo variable2Type baa foreach var val in list foo new Foo foo x FormatValue val baa new Baa baa main
Vim Fugitive：Gblame 重责选项

我最近一直在使用Fugitive的Gblame 但不太明白 reblame 的作用有人可以更清楚地描述这些选项的作用吗 reblame at commit reblame at count th first grandparent P r
为什么赋值表达式 [String x = (x = y)] 的变量初始化可以编译？

这个如何编译才不会报错呢据我了解编译器检查变量的类型在本例中String 然后查看右侧表达式的类型是否对应于变量的类型或至少是一个子类型但让我们坚持使用简单的情况String类因为它是最后的 public class InitC
在实体框架中自定义类型映射

我正在使用 EF5 Code First 并尝试存储 IPAddress 对象如果您尝试直接执行此操作 EF 会将其存储为两列 FIELDNAME Address 和 FIELDNAME Scope 不幸的是这不足以存储 IPv4 地址
寻找基于 Django 类的视图并在单个页面上具有多个表单示例

我一直在寻找如何使用较新的基于 Django 类的视图方法在一页上显示 2 个独特的表单有人可以参考一下吗或者提供一个基本的例子谷歌并没有因此成为我的朋友关键是你甚至不必使用其中之一FormView处理表单的子类您只需添加手动处
BluetoothLEDevice.FromIdAsync 返回 null

这是用于获取 BLE 设备的 UWP 代码为什么我在某些设备上得到 bleDevice null 我没有找到任何解释这一点的文档 var devices await DeviceInformation FindAllAsync Bluet
Xcode - Segue 问题

我一直在努力让segue继续工作我写了以下内容但由于某种原因 preparesegue 方法不会触发我已经阅读了其他相关的帖子但我无法让它启动而且同样重要的是我需要的变量没有被传输 m file implementation C
jQuery - 检查是否第一次点击

我有 2 个函数 A 和 B 只需单击一次 div 即可调用我只需要在第一次单击时调用函数 A 并在单击时调用函数 B 我怎么能这样做呢更简单的解决方案 element one click function Call A click f
调整 Datagridview 上的 Rowheader 属性

在 Winforms DataGridView 中我该如何删除行标题上的箭头我需要显示行标题文本所以我不能简单地设置RowHeadersVisible false 以编程方式调整行标题的宽度我通过代码设置行标题因此我需要调整宽度
通过Matplotlib中的OO接口获取图形管理器

我希望能够获取创建的图形的figure manager 例如我可以使用 pyplot 界面来完成此操作 from pylab import figure plot arange 100 mngr get current fig manage
MS Access XML 从文本或流而不是文件导入？

有什么简单的方法可以完成与 Application ImportXML 等效的操作但将 XML 作为字符串或文本流而不是文件在 Access 2003 中我想将记录插入到一个包含许多字段的表中其中包含来自应用程序中不同位置的数据
spring资源是文件还是目录？

我正在使用 spring Resource API 并使用 ResourcePatternResolver 来扫描我的类路径中的文件在一种情况下扫描会拾取预构建 jar 中的一些目录和文件以及文件系统上的一些目录和文件在任何一种情况下
AppDomains 与强大的服务器

经过一些研究后 AppDomains 似乎并不是真正构建托管服务器的工具根据我的理解如果创建的AppDomain中存在未处理的异常如果从创建的AppDomain中的线程抛出异常托管服务器仍然会崩溃因此在这种情况下如果托管服务器
Pandas：将列与数据帧的所有其他列进行比较

我有一个场景我有新的受试者正在测试一系列特征其中结果都是字符串分类值测试完成后我需要将新数据集与所有受试者的主数据集进行比较并寻找给定阈值例如 90 的相似性匹配因此我需要能够以尽可能最佳的性能对新数据集中的每个新主题与主

Pandas：将列与数据帧的所有其他列进行比较

Pandas：将列与数据帧的所有其他列进行比较 的相关文章

随机推荐

热门标签

Pandas：将列与数据帧的所有其他列进行比较的相关文章