对于售点POI标签计算脚本优化总结

2023-11-11

对于售点POI标签计算脚本性能优化总结

  • 减少udf 函数的使用多多使用spark的算子

​ 对于两组经纬度的距离计算可以使用常规的公式计算法:

Haversine 公式是一种用于计算两个球面坐标点(经度和纬度)之间的距离的公式。它的原理是基于球面三角形中的余弦定理,即:

cos© = cos(a) * cos(b) + sin(a) * sin(b) * cos©

其中,a、b 和 c 分别表示球面三角形的三条边所对应的夹角,C 表示球面三角形中两点间的弧长。根据余弦定理,我们可以得出:

cos© = cos(lat1) * cos(lat2) * cos(lon2 - lon1) + sin(lat1) * sin(lat2)

其中,lat1、lat2、lon1 和 lon2 分别表示两个点的纬度和经度。由于我们通常使用角度而非弧度来表示经纬度,因此需要将其转换为弧度。

poi_outlet = poi_outlet.withColumn("dlat", radians(poi_outlet["LATITUDE"]) - radians(poi_outlet["lat"]))
poi_outlet = poi_outlet.withColumn("dlon", radians(poi_outlet["LONGITUDE"]) - radians(poi_outlet["lng"]))
poi_outlet = poi_outlet.withColumn("a",
                   sin(poi_outlet["dlat"]/2)**2 +
                   cos(radians(poi_outlet["LATITUDE"])) * cos(radians(poi_outlet["lat"])) *
                   sin(poi_outlet["dlon"]/2)**2)
poi_outlet = poi_outlet.withColumn("distance", 2 * asin(sqrt(poi_outlet.a))*6371.393*1000)

避免使用外部引用

from geopy.distance import geodesic
distance = geodesic((lat1, lng1), (lat2, lng2)).m
  • 减少需要计算的数据量

    售点数据有:1 650 654,为减少计算量 ,将没有经纬度信息的售点进行筛除。筛除后1 167 357

    腾讯POI数据有:30 498 558,为减少计算量 ,将没有经纬度信息进行筛除。晒出后29 607 224

    整体的数据计算量,以售点经纬度为中心,圈出一个 经度、维度为1500m范围的经纬局域,这样就可以减少后续的计算数据量

# _lon_res = round(0.0011141771746803184 * 15, 5)  0.01671
# _lat_res = round(0.0009034837993532672 * 15, 5)  0.01355
poi_outlet = poi_outlet.filter(
    (poi_outlet.lng.isNotNull()) & (poi_outlet.LONGITUDE.isNotNull()) &
    (poi_outlet.lat.isNotNull()) & (poi_outlet.LATITUDE.isNotNull()) &
    (expr("abs(lng - LONGITUDE) <= 0.01671")) &
    (expr("abs(lat - LATITUDE) <= 0.01355"))
)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对于售点POI标签计算脚本优化总结 的相关文章

随机推荐

  • elementui form 正则表达式校验手机号

    data var checkPhone rule value callback gt if value return callback new Error 手机号不能为空 else const reg 1 3 4 5 7 8 0 9 d 8
  • 【Linux】使用Xshell远程链接Linux服务器踩坑合辑

    使用Xshell远程链接Linux服务器踩坑合辑 Xshell远程连接服务器 1 无法解析主机 2 Xshell连接服务器 导入密钥文件失败 Xshell远程连接服务器 Xshell是一个常用的远程连接服务器工具 日常使用十分方便便捷 在连
  • docker在镜像和本地之间拷贝文件

    一 从容器里面拷文件到宿主机 docker cp b76a6e929470 home nacos conf Users king Desktop docker cp 容器ID 要拷贝的文件在容器中的位置 要拷贝到本地宿主机的位置 二 从宿主
  • error: (-215:Assertion failed) !_src.empty() in function ‘cv::cvtColor‘...

    解决 error 215 Assertion failed src empty in function cv cvtColor 报错如下 分析原因 解决方法 代码实现 报错如下 分析原因 可能是照片无效问题 即cv2 imread返回的值为
  • 常用linux命令

    1 创建文件目录 mkdir 2 创建文件 vi filename eg vi test txt 3 移动文件 mv source destination eg mv test txt study 重命名文件 mv test txt hel
  • VScode 黄色波浪线,Import “[module]“ could not be resolvedPylance

    文章目录 问题描述 解决方案 1 修改vscode的python环境 2 修改 vscode seteing json 文件 问题描述 大致的错误截图 第三方包 自己的代码库 导入不成功 显示黄色波浪线 代码自动提示功能受限 解决方案 可按
  • 斯坦福 机器学习-第二章 生成学习算法

    CS229 Lecture notes 原作者 Andrew Ng 吴恩达 翻译 CycleUser Part IV 生成学习算法 Generative Learning algorithms 目前为止 我们讲过的学习算法的模型都是p y
  • java--基础--17.1--线程--实现多线程,线程方法

    java 基础 17 1 线程 实现多线程 线程方法 1 概念 进程 正在运行的程序 每个进程可以由多个线程组成 线程 是进程中的单个顺序控制流 是一条执行路径 并行 指在某一个时间点执行多个任务 并发 指在某一个时间段执行多个任务 2 实
  • 【Android】App开发-动画效果篇

    在我们玩手机的过程中 如果我们点击某一个页面时 会出现一个页面动画加载或者动画效果的现象 现在我们就来看看App开发中是如何实现动画效果的 目录 动画的分类 逐帧动画 补间动画 动画的分类 在常见的app使用的动画中 常见的就是逐帧动画 补
  • confluence安装

    注 安装前确保机器已安装docker 1 执行如下命令一键安装wiki mkdir p data cd data wget http apk lingyun5 com confluence wiki tar gz tar zxvf conf
  • 学习sql,你需要知道这些

    这里写目录标题 数据库的分类 开发式数据库 非开发式数据库 事务 什么是事务 事务的四种特性 死锁 什么是死锁 死锁的四个条件 如何处理死锁 预防死锁 避免死锁 检测死锁 解除死锁 什么是navicat SQL语句 对数据库的操作 对表的操
  • 数字图像处理:使用直方图统计进行图像增强

    一 引言 在 数字图像处理 局部直方图处理 Local Histogram Processing https blog csdn net LaoYuanPython article details 120383974 介绍了基于像素的邻域进
  • 工具类之FastDFSClient

    import org csource common MyException import org csource common NameValuePair import org csource fastdfs import org spri
  • 【GRU时序预测】基于贝叶斯网络优化卷积神经网络结合门控循环单元BO-CNN-GRU实现数据股价预测附matlab代码

    作者简介 热爱科研的Matlab仿真开发者 修心和技术同步精进 matlab项目合作可私信 个人主页 Matlab科研工作室 个人信条 格物致知 更多Matlab仿真内容点击 智能优化算法 神经网络预测 雷达通信 无线传感器 电力系统 信号
  • c语言 --- 指针

    什么是指针 指针就是一个地址 在c语言中任何东西都是有地址的 如何获取地址 用的是 取地址符 指针就是一个整数 获取指针 定义变量时 可以通过取地址符 得到当前变量的地址 gt 一个房间对应一个房间号 地址类比于房间号 所有的指针类型都是
  • jpa 动态参数查询 高级查询

    GetMapping find ApiOperation 通用查询 ScSecurityPermission name 通用查询 public ScResult find FileInfo fileInfo RequestParam nam
  • JS获取json子项/数组的个数/长度

    JS获取json子项 数组的个数 长度 微信小程序获取json格式数据的个数 长度
  • java 请求参数加解密

    项目开发中 需要针对请求参数加密 解密操作 可以使用下列工具类 oap security enabled true oap security enableIgnoreAnnotation true oap security secretKe
  • [4G/5G/6G专题基础-158]: 5G VoNR(Voice over NR)与VoLTE共同组成5G三大语音方案

    目录 第1章 语音方案概述 1 1 VoLTE概述 1 2 5G VoNR概述 第2章 5G VoNR网络架构 2 1 基本原则 2 2 NSA VoLTE方案 2 3 SA EPS Fallback SA组网 早期方案 2 4 SA Vo
  • 对于售点POI标签计算脚本优化总结

    对于售点POI标签计算脚本性能优化总结 减少udf 函数的使用多多使用spark的算子 对于两组经纬度的距离计算可以使用常规的公式计算法 Haversine 公式是一种用于计算两个球面坐标点 经度和纬度 之间的距离的公式 它的原理是基于球面