使用 pandas 识别最近的物体

2024-04-16

我有一个可以使用任何编程语言完成的作业。我选择了Python和pandas，因为我几乎没有使用它们的经验，并且认为这将是一个很好的学习经历。我能够使用我从传统计算机编程中了解到的传统循环来完成作业，并且它在数千行上运行得很好，但是一旦我让它处理数百万行，它就会使我的笔记本电脑突然停止运行。任务概述如下。

在二维平面上有一条双车道的道路。一条车道供汽车使用，另一条车道供卡车使用。数据如下所示（每个表跨越数百万行）：

cars

   id  start  end
0  C1    200  215
1  C2    110  125
2  C3    240  255
...

trucks

   id  start  end
0  T1    115  175
1  T2    200  260
2  T3    280  340
3  T4     25   85
...

上面的两个数据框对应于此：

start and end列代表道路上的任意位置，其中start= 车辆的后边缘并且end= 车辆的前缘。

任务是识别距离每辆车最近的卡车。卡车可以有up to与汽车的三种不同关系：

后部 - 位于汽车后部（cars.end > trucks.end)
对面 - 是在汽车的对面（cars.start >= trucks.start and cars.end <= trucks.end)
前面 - 它位于汽车前面（cars.start < trucks.start)

我强调“最多”是因为如果后面或前面有另一辆车距离最近的卡车更近，那么这种关系就会被忽略。在上图的情况下，我们可以观察到以下情况：

C1：后= T1，横向= T2，前=无（C3被阻挡）
C2：后= T4，横向=无，前= T1
C3：后=无（C1被阻挡），横向= T2，前= T3

最终输出需要附加到cars数据框以及以下新列：

数据交叉引用自trucks数据框
对于后面的位置，间隙距离（cars.start - trucks.end)
对于前面的位置，间隙距离（trucks.start - cars.end)

决赛cars数据框应如下所示：

   id  start  end  back_id  back_start  back_end  back_distance  across_id  across_start  across_end  front_id  front_start  front_end  front_distance
0  C1    200  215       T1         115       175             25         T2           200         260
1  C2    110  125       T4          25        85             25                                             T1          115        175             -10
2  C3    240  255                                                       T2           200         260        T3          280        340              25

pandas 是完成这项任务的最佳工具吗？如果有一个更合适的工具，可以根据数百万行的某些计算有效地交叉引用和附加列，那么我会洗耳恭听。

所以对于 pandas，你可以使用merge_asof https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge_asof.html，这是一种方法，对于数百万行可能效率不高：

#first sort values
trucks = trucks.sort_values(['start'])
cars = cars.sort_values(['start'])

#create back condition
df_back = pd.merge_asof(trucks.rename(columns={col:f'back_{col}' 
                                               for col in trucks.columns}), 
                        cars.assign(back_end=lambda x: x['end']), 
                        on='back_end', direction='forward')\
            .query('end>back_end')\
            .assign(back_distance=lambda x: x['start']-x['back_end'])

#create across condition: here note that cars is the first of the 2 dataframes
df_across = pd.merge_asof(cars.assign(across_start=lambda x: x['start']),
                          trucks.rename(columns={col:f'across_{col}' 
                                                 for col in trucks.columns}), 
                          on=['across_start'], direction='backward')\
              .query('end<=across_end')

#create front condition
df_front = pd.merge_asof(trucks.rename(columns={col:f'front_{col}' 
                                                for col in trucks.columns}), 
                         cars.assign(front_start=lambda x: x['start']), 
                         on='front_start', direction='backward')\
             .query('start<front_start')\
             .assign(front_distance=lambda x: x['front_start']-x['end'])

# merge all back to cars
df_f = cars.merge(df_back, how='left')\
           .merge(df_across, how='left')\
           .merge(df_front, how='left')

你得到

print (df_f)
   id  start  end back_id  back_start  back_end  back_distance  across_start  \
0  C2    110  125      T4        25.0      85.0           25.0           NaN   
1  C1    200  215      T1       115.0     175.0           25.0         200.0   
2  C3    240  255     NaN         NaN       NaN            NaN         240.0   

  across_id  across_end front_id  front_start  front_end  front_distance  
0       NaN         NaN       T1        115.0      175.0           -10.0  
1        T2       260.0      NaN          NaN        NaN             NaN  
2        T2       260.0       T3        280.0      340.0            25.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

使用 pandas 识别最近的物体的相关文章

Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

为什么push指令会改变rsp的值？ [复制]

这个问题在这里已经有答案了我正在检查 Ericksons Hacking The Art of Exploitation 中的这段代码片段 void test function int a int b int c int d int fl
JMS 客户端应用程序错误。无法使用 URL 连接

我正在 C 上编写客户端应用程序以连接到我的本地 JMS Weblogic Server 12c 我尝试使用这里的示例代码 http docs oracle com cd E15523 01 web 1111 e13746 app exam
创建和使用 Android 的 ContentProvider

当我调用 Android ContentProvider 时出现以下异常 java lang RuntimeException 无法开始活动 ComponentInfo de harm android couchone de harm
在水平列表上使用鼠标滚轮进行水平滚动

我正在尝试使用鼠标滚轮进行水平滚动但似乎不起作用这是我的Fiddle http jsfiddle net a3j1x47a 我的主课 selector是一个可滚动的overflow 这是 JS 我正在尝试用它初始化滚动 selector
如何使用quartz搜索pdf文档中的文本

我正在使用quartz 来显示pdf 我需要获取搜索文本所在页面的索引有人可以帮助我吗谢谢解决方案有一个代码示例用于从页面中提取文本并检查其序列 import
在类中使用 requestAnimationFrame

我不知道如何使用requestAnimationFrame在课堂上这段代码工作正常 window onload function var width 20 function animation width var element docu
JUnit：如何按照 Spring 的预期访问 Spring 配置？

有一个教程视频 http www infoq com presentations Mastering Spring MVC 3介绍了 Spring MVC 3 0 在演示项目中他们使用以下目录结构
C++ 如何在删除前一个内容后使用同一行打印文本？

我想打印一行然后删除它然后在同一行中打印另一行我想要这个因为我不会丢失或返回太多信息来获取在循环之前打印的信息例如Processing file
为什么我们真的需要多个 Netty boss 线程？

我真的很困惑老板组的线程数量我无法弄清楚我们需要多个老板线程的场景在Boss 组是否需要多个线程 https stackoverflow com questions 22280916 do we need more than a sin
F找出打开所有灯泡的最少开关数量

我试图理解给出的问题here http qa geeksforgeeks org 4118 find the minimum number switches you have press turn all bulbs及其解决方案问题指出
Laravel - 验证 |输入字段应该是两个值之一

我正在尝试验证表单请求并且我想接受该字段test如果它有一个值或ABC or XYZ 我怎样才能实现这个目标我目前有 request gt validate test gt required unique tests Laravel 文
Spring RequestBodyAdvice 没有被模拟 MVC 框架工作，它如何为 ResponseBodyAdvice 工作

我们正在使用 Spring 4 2 0 RELEASE 并实现RequestBodyAdvice and ResponseBodyAdvice解析请求和响应主体的建议当我们尝试使用 spring 测试框架编写模拟单元测试时它仅获取 Re
即使所有消息都成功从服务器发送，某些设备也不会收到 GCM 推送

我们正在开发一个使用 GCM 的应用程序它在大多数手机上运行良好但是我们有两部手机 galaxy note 2 和 Galaxy s plus 收不到消息或者可能只是广播接收器没有被调用服务器端推送 data array data
字符串中的智能模式匹配

假设我的文件名格式不同我希望能够像人类一样从所述文件名中提取某些方面模式识别显然我可以使用正则表达式来暴力破解自己但这不是我想要的假设我有这 4 个字符串 MAS Hayate no Gotoku 20 BD 720p 21D1
生成按 user_id 分组的订单表，其中汇总了产品数量

我有一个大的 mysql 表在 woocommerce 中人们可以在其中多次购买商品我想做的是动态生成一个表在其中选择我想要查询的产品如果可能的话从 php 中的下拉菜单中并按 user id 购买的产品数量进行分组我发现t
输入数据集如何输入神经网络？

如果我的数据集中有 1000 个观测值其中包含 15 个特征和 1 个标签那么输入神经元中的数据如何用于前向传播和反向传播是逐行馈送 1000 个观测值一次一个并根据每个观测值馈送更新权重还是以输入矩阵形式给出完整数据然后根据
使用 python 将所有 csv 文件从编码 ansi 转换为 utf8

我有Python代码如下 import os from os import listdir def find csv filenames path to dir suffix csv filenames listdir path to di
如何在 rpy2 中将列表传递给 R 并返回结果

我第一次尝试使用 rpy2 假设我在 python 中有一个列表 l 1 2 3 4 5 6 我想用 R 打电话 ks test l pexp 我怎样才能做到这一点我最初的尝试是 usr bin python import rpy2 ro
Javascript 专注于 DIV 元素在 chrome 上不起作用

您好我想在页面加载后立即关注 div 它在 Firefox 上工作得很好但在 chrome 上却不行它不起作用这是我的代码 https jsfiddle net 9yb2boxn https jsfiddle net 9yb2box
使用 pandas 识别最近的物体

我有一个可以使用任何编程语言完成的作业我选择了Python和pandas 因为我几乎没有使用它们的经验并且认为这将是一个很好的学习经历我能够使用我从传统计算机编程中了解到的传统循环来完成作业并且它在数千行上运行得很好但是一旦我让它

使用 pandas 识别最近的物体

使用 pandas 识别最近的物体 的相关文章

随机推荐

热门标签

使用 pandas 识别最近的物体的相关文章