使用 Python 查找最相似的行

2024-01-19

我有两个数据框（df1 和 df2）。在 df1 中，我存储一行包含一组值，我想在 df2 中找到最相似的行。

import pandas as pd
import numpy as np

# Df1 has only one row and four columns.
df1 = pd.DataFrame(np.array([[30, 60, 70, 40]]), columns=['A', 'B', 'C','D'])

# Df2 has 50 rows and four columns
df2 = pd.DataFrame(np.random.randint(0,100,size=(50, 4)), columns=list('ABCD'))

问题：根据 df1，df2 中最相似的行是什么？

用 df1 减去 df2 并计算每行的范数。找到最小范数并解决问题。

diff_df = df2 - df1.values
# or diff_df = df2 - df1.iloc[0, :]
norm_df = diff.apply(np.linalg.norm, axis=1)
df2.loc[norm_df.idxmin()]

它可读且快速。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Distance

使用 Python 查找最相似的行的相关文章

如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
在 for 循环中访问 itertools 产品的元素

我有一个列表列表是附加 itertools 产品的一些其他结果的结果我想要的是能够使用 for 循环访问列表列表中列表的每个元素但我无法访问所有元素我只能访问最后一个列表的元素结果是一个非常巨大的列表列表例如 1 2 4 3 6
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
python 日志记录替代方案 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案蟒蛇记录模块 http docs python org library logging html使用起来
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包

随机推荐

将 EAR 模块转为 OSGI 包的正确方法

有必要将 EAR 的一部分即战争转变成 OSGI 包并保留其互操作性 Glassfish 3 0 1 已经有了osgi web container模块我成功部署了独立的 OSGI war 但如果是前企业战争我觉得有点困难我该如何处
solr 地理层次结构

我一直在试图找出一种在 solr 中实现层次结构分面的方法但不知道在我的情况下如何做到这一点我读过几篇关于在 solr 中进行层次结构的文章以及补丁 64 和 792 中的解决方案我遇到的主要问题是我的实体可以属于层次结构的多个分支
R ggplot2 - 简单绘图 - 无法指定对数轴限制

我正在尝试在 R 中的 ggplot2 中创建一个简单的密度图这是我的代码效果很好 d lt ggplot result aes x result baseMeanA d geom density colour darkgreen si
如何将 java.time.Instant 格式化为本地时区的字符串？

如何格式化javax time Instant http threeten sourceforge net apidocs 2011 01 07 javax time Instant html作为本地时区的字符串以下是本地翻译的Insta
RadDateTimePicker + 用于数据输入的掩码

要求允许用户以格式输入日期同时还可以从 DatePicker 中选择日期假设输入的所有年份都是 2000 年之后例如用户输入 050513 它会变成 5 5 2013年或者如果他们从 DatePicker 中选择它则提供相
Scalatest 和 Spark 给出“java.io.NotSerializedException：org.scalatest.Assertions$AssertionsHelper”

我正在借助测试 Spark Streaming 应用程序com holdenkarau spark 测试基地 and 分级测试 import com holdenkarau spark testing StreamingSuiteBase
Rails 包含范围

我有一个名为 Author 的模型一个作者有很多文章文章有一个名为 published 的范围它的作用是 where published true 我想加载作者以及已发表的文章我试过 Author includes articles
Pandas 的部分总和和小计

I m trying to achieve a table with subtotals as shown here http pandas pydata org pandas docs stable cookbook html pivot
pandas 行值到列标题

我有一个像这样的数据框 df pd DataFrame id1 1 1 1 1 2 2 2 id2 1 1 1 1 2 2 2 value a b c d a b c id1 id2 value 0 1 1 a 1 1 1 b 2 1 1
使用 Google Maps API 绘制地图路径/航点并播放路线

我试图在播放映射路线时绘制访问的路径如下例所示加载地图时我希望绘制的点 A B C D E 然后 F 依次连接我已成功绘制了这些点但无法将这些点逐个动态链接这是我的代码
UICollectionView 单元格视图重叠

我的单元格重叠如下所示 my cellForItemAtIndexPath是这样的 func collectionView collectionView UICollectionView cellForItemAtIndexPath in
如何在 Windows 窗体应用程序中构建启动屏幕？

我需要在应用程序启动时显示启动画面几秒钟有人知道如何实施吗将非常感谢您的帮助首先将启动屏幕创建为无边框不可移动的形式并在其上显示图像设置为最初显示在屏幕中央并按您想要的方式着色所有这些都可以在设计器内部设置具体来说您想
PHP Amazon S3 上传和标签

我正在编写一个视频共享网站我正在使用 S3 来存储和提供视频我已经在 MySQL 数据库中为视频编写了标签但我发现 S3 支持上传文件上的设置标签这是我用来上传文件的代码 try Create a S3Client s3Client
返回Json，但其中包含反斜杠“\”，这是我不想要的

我使用 MVC4 web api c 并且想要返回 Json使用 Json net 问题是它带有反斜杠我还将此代码添加到 Global asax 中 GlobalConfiguration Configuration Formatter
WPF 根据条件隐藏数据网格中的行

我需要根据数据网格中的参数和值隐藏数据网格中的行我想做这样的事情 foreach System Data DataRowView dr in myDataGrid ItemsSource Logic to determine if Row
opengl中使用哪种图像类型

当使用 OpenGL 为 Android 编程时我似乎可以为图像使用 BMP JPG 和 PNG 文件类型哪一个如果有的话最好非常感谢这不是 OpenGL 的问题因为一旦你有了Graphics Bitmap对象来源很大程度上无
yarn-client模式和yarn-cluster模式的区别

我在纱线客户端模式和纱线集群模式上运行类似的代码时遇到了一些问题当我在客户端模式下运行我的代码时它可以完美执行但在纱线集群节点上运行时会失败它抛出文件非文件异常指出找不到 pyspark zip 文件对此的任何见解都会有所帮助
Python 中与语法、标记、词干和词义消歧有关的一些 NLP 内容

背景 TLDR 为了完成而提供寻求有关奇怪需求的最佳解决方案的建议我是一名大学四年级的文学学生只有我自己的编程指导我对Python有足够的能力所以我不会在实现我找到的解决方案大多数时候并在它们的基础上进行开发时遇到麻烦但
如何提供具有不同数据库模式的多个版本的 API？

在 Kevin Goldsmith 2015 年的演讲中Spotify 的微服务 https youtu be 7LGPeBgNFuU t 925 从 15 25 17 43 他提到当他们创建新版本的 API 时他们只是创建一个新服务器
使用 Python 查找最相似的行

我有两个数据框 df1 和 df2 在 df1 中我存储一行包含一组值我想在 df2 中找到最相似的行 import pandas as pd import numpy as np Df1 has only one row and fo

使用 Python 查找最相似的行

使用 Python 查找最相似的行 的相关文章

随机推荐

热门标签

使用 Python 查找最相似的行的相关文章