使用 Python 查找最相似的行

2024-01-19

我有两个数据框(df1 和 df2)。在 df1 中,我存储一行包含一组值,我想在 df2 中找到最相似的行。

import pandas as pd
import numpy as np

# Df1 has only one row and four columns.
df1 = pd.DataFrame(np.array([[30, 60, 70, 40]]), columns=['A', 'B', 'C','D'])

# Df2 has 50 rows and four columns
df2 = pd.DataFrame(np.random.randint(0,100,size=(50, 4)), columns=list('ABCD'))

问题:根据 df1,df2 中最相似的行是什么?


用 df1 减去 df2 并计算每行的范数。找到最小范数并解决问题。

diff_df = df2 - df1.values
# or diff_df = df2 - df1.iloc[0, :]
norm_df = diff.apply(np.linalg.norm, axis=1)
df2.loc[norm_df.idxmin()]

它可读且快速。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 查找最相似的行 的相关文章

随机推荐

  • 将 EAR 模块转为 OSGI 包的正确方法

    有必要将 EAR 的一部分 即战争 转变成 OSGI 包并保留其互操作性 Glassfish 3 0 1 已经有了osgi web container模块 我成功部署了独立的 OSGI war 但如果是前企业战争 我觉得有点困难 我该如何处
  • solr 地理层次结构

    我一直在试图找出一种在 solr 中实现层次结构分面的方法 但不知道在我的情况下如何做到这一点 我读过几篇关于在 solr 中进行层次结构的文章以及补丁 64 和 792 中的解决方案 我遇到的主要问题是我的实体可以属于层次结构的多个分支
  • R ggplot2 - 简单绘图 - 无法指定对数轴限制

    我正在尝试在 R 中的 ggplot2 中创建一个简单的密度图 这是我的代码 效果很好 d lt ggplot result aes x result baseMeanA d geom density colour darkgreen si
  • 如何将 java.time.Instant 格式化为本地时区的字符串?

    如何格式化javax time Instant http threeten sourceforge net apidocs 2011 01 07 javax time Instant html作为本地时区的字符串 以下是本地翻译的Insta
  • RadDateTimePicker + 用于数据输入的掩码

    要求 允许用户以 格式输入日期 同时还可以从 DatePicker 中选择日期 假设输入的所有年份都是 2000 年之后 例如 用户输入 050513 它会变成 5 5 2013年 或者 如果他们从 DatePicker 中选择它 则提供相
  • Scalatest 和 Spark 给出“java.io.NotSerializedException:org.scalatest.Assertions$AssertionsHelper”

    我正在借助 测试 Spark Streaming 应用程序com holdenkarau spark 测试基地 and 分级测试 import com holdenkarau spark testing StreamingSuiteBase
  • Rails 包含范围

    我有一个名为 Author 的模型 一个作者有很多文章 文章有一个名为 published 的范围 它的作用是 where published true 我想加载作者以及已发表的文章 我试过 Author includes articles
  • Pandas 的部分总和和小计

    I m trying to achieve a table with subtotals as shown here http pandas pydata org pandas docs stable cookbook html pivot
  • pandas 行值到列标题

    我有一个像这样的数据框 df pd DataFrame id1 1 1 1 1 2 2 2 id2 1 1 1 1 2 2 2 value a b c d a b c id1 id2 value 0 1 1 a 1 1 1 b 2 1 1
  • 使用 Google Maps API 绘制地图路径/航点并播放路线

    我试图在播放映射路线时绘制访问的路径 如下例所示 加载地图时 我希望绘制的点 A B C D E 然后 F 依次连接 我已成功绘制了这些点 但无法将这些点逐个动态链接 这是我的代码
  • UICollectionView 单元格视图重叠

    我的单元格重叠 如下所示 my cellForItemAtIndexPath是这样的 func collectionView collectionView UICollectionView cellForItemAtIndexPath in
  • 如何在 Windows 窗体应用程序中构建启动屏幕?

    我需要在应用程序启动时显示启动画面几秒钟 有人知道如何实施吗 将非常感谢您的帮助 首先 将启动屏幕创建为无边框 不可移动的形式 并在其上显示图像 设置为最初显示在屏幕中央 并按您想要的方式着色 所有这些都可以在设计器内部设置 具体来说 您想
  • PHP Amazon S3 上传和标签

    我正在编写一个视频共享网站 我正在使用 S3 来存储和提供视频 我已经在 MySQL 数据库中为视频编写了标签 但我发现 S3 支持上传文件上的设置标签 这是我用来上传文件的代码 try Create a S3Client s3Client
  • 返回Json,但其中包含反斜杠“\”,这是我不想要的

    我使用 MVC4 web api c 并且想要返回 Json使用 Json net 问题是它带有 反斜杠 我还将此代码添加到 Global asax 中 GlobalConfiguration Configuration Formatter
  • WPF 根据条件隐藏数据网格中的行

    我需要根据数据网格中的参数和值隐藏数据网格中的行 我想做这样的事情 foreach System Data DataRowView dr in myDataGrid ItemsSource Logic to determine if Row
  • opengl中使用哪种图像类型

    当使用 OpenGL 为 Android 编程时 我似乎可以为图像使用 BMP JPG 和 PNG 文件类型 哪一个 如果有的话 最好 非常感谢 这不是 OpenGL 的问题 因为一旦你有了Graphics Bitmap对象来源很大程度上无
  • yarn-client模式和yarn-cluster模式的区别

    我在纱线客户端模式和纱线集群模式上运行类似的代码时遇到了一些问题 当我在客户端模式下运行我的代码时 它可以完美执行 但在纱线集群节点上运行时会失败 它抛出文件非文件异常 指出找不到 pyspark zip 文件 对此的任何见解都会有所帮助
  • Python 中与语法、标记、词干和词义消歧有关的一些 NLP 内容

    背景 TLDR 为了完成而提供 寻求有关奇怪需求的最佳解决方案的建议 我是一名大学四年级的 文学 学生 只有我自己的编程指导 我对Python有足够的能力 所以我不会在实现我找到的解决方案 大多数时候 并在它们的基础上进行开发时遇到麻烦 但
  • 如何提供具有不同数据库模式的多个版本的 API?

    在 Kevin Goldsmith 2015 年的演讲中Spotify 的微服务 https youtu be 7LGPeBgNFuU t 925 从 15 25 17 43 他提到 当他们创建新版本的 API 时 他们只是创建一个新服务器
  • 使用 Python 查找最相似的行

    我有两个数据框 df1 和 df2 在 df1 中 我存储一行包含一组值 我想在 df2 中找到最相似的行 import pandas as pd import numpy as np Df1 has only one row and fo