mysql 用户流失_利用SQL对平台用户行为进行分析

2023-11-14

一、提出问题

1、 平台的用户流失情况是怎样的?

2、 造成该种流失情况是原因是什么?

二、理解数据

1、 数据来源

https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。

数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,源文件数据100,150,807条

2、 字段含义

列名称说明

用户ID:字符串类型,用户ID

商品ID:字符串类型,商品ID

商品类目ID:字符串类型,商品所属类目ID

行为类型:字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')

时间戳:整型,行为发生的时间戳

注意到,用户行为类型共有四种,它们分别是

行为类型说明

pv:商品详情页pv,等价于点击

buy:商品购买

cart:将商品加入购物车

fav:收藏商品

三、数据清洗

通过数据库管理工具Navicat将数据集导入MySQL数据库中。

1、 选择子集

数据集全部为有效记录,由于数量巨大,故此仅随机导入了10,0000以供后续分析。

2、 删除重复值

无重复值

3、 缺失值处理

对所有列进行计数,计数结果都为99999,不存在缺失值。

4、 一致化处理

由于timestamp包含了(年-月-日)和小时,为了方便,将该字段分成2个字段,一个日期列一个时间列

5、 异常值处理

检查是否有错误时间戳,如负数或者0;不存在错误时间戳

检查表内date数据是否在2017-11-25至2017-12-03之间;

以上,数据准备完毕!

四、构建模型

1、 用户流失情况

用户行为包括点击、放进购物车、收藏以及购买,点击占总行为数的89.7%,而放进购物车只占5.45%,最后实际购买占2.1%,用户流失主要在放进购物车这一环节上。

可能出现的原因是用户在花了大量时间搜寻不到自己想要的产品,以至于放弃在平台上购买转而去其他平台购买。

针对这个猜测,从以下两个维度分析验证此猜测:

1) 用户想要在平台找到什么产品

2) 平台推送的产品是否满足用户需求

2、 用户流失情况原因分析

1) 用户像要在找到什么产品

衡量用户最想要在平台找到什么产品,最终要的指标是商品点击数。通过该项指标,可最大程度上了解到哪类产品用户的需求量较大,哪类产品是需求较小。

从图中可以看出,商品类别为4756105、3607361、4145813、2355072、982926点击数最高,说明用户最想在平台中找到这五类商品,在这五种类型下,各类点击数排名前三的商品又为:

从图中可以看出,各类商品中,4756105类的商品需求最高。

根据以上结果,分析在2017-11-25至2017-12-03这几天内和一天内用户寻找这五类商品的主要时间段

从图中可以看出,982926、4756105这两类产品在12月2日点击量剧增,可能是当天这两款产品有推广活动。

一天内用户寻找这五类商品的主要时间段

可以看出,这五类产品的用户点击数从每日0点到5点快速降低,3点左右降到一天中的点击数最低值,6点至10点用户点击数快速上升,10点至18点用户点击数比较平稳,18点至23点用户点击数快速上升,21点左右打到一天中的最高值。

综合上述分析可知,用户在平台最想要寻找到的商品类别编号为:4756105、3607361、4145813、2355072、982926的这五类商品,在这五类商品中,4756105的商品需求最高。用户主要集中在下午6点至晚上11点在平台寻找这几类商品。

因为数据集有限,只能大致分析出用户想要寻找哪几类商品,若要更细致地分析出用户想要什么样的商品,还需要知道用户使用的搜索高频词,利用该项数据建立用户搜索画像,并结合商品点击数数据,建立搜索点击率指标,分析总结点击率高的搜索高频词和点击率低的搜索高频词。从而更精确地总结出用户在平台最想要寻找什么商品。

2) 平台推送的商品是否满足用户需求

从上一步中分析出用户想要寻找什么产品后,接下来需要知道平台筛选推送的商品是否满足了用户的需求。

首先从商品数量占比分析这五类商品是否在平台上足够多,以供用户选择。

从以上结果可以看出,平台共有3128种商品,种类繁多,而需求量最多的前五类商品在商品数量上一共占到了27.6%,说明平台对这五类商品提供了足够多的选择。

在选择足够多多的情况下,需从商品购买数上分析平台对这五类商品的推送机制是否合理,即用户搜索某类商品后,出现的商品是否满足用户的需求。

从上图可以看出,除了4145813类商品的购买次数较多以外,其他需求多的四类商品的购买次数并不多,甚至都没有进入购买次数的前五名。以下是需求最多的五类商品的购买次数:

从图上可以看出,需求最高的五类商品 购买数都远低于购买数最高的五类商品,说明平台对这五类需求最高的商品的推送机制并不合理,平台给用户推送的这五类商品没有满足客户的要求,即用户在点击查看该类商品后,发现并不是自己想要的商品放弃加入购物车,造成转化率降低。

五、结论

根据以上分析,证实了前面的猜测,平台用户在放进购物车环节流失严重的原因是,用户在平台花了大量时间搜索寻不到自己想要的商品,以至于放弃在平台购买商品,转而去其他平台购买。

六、建议

1、 建议相关部门改善平台推送商品机制,尤其针对需求量最高的4756105、3607361、4145813、2355072、982926这五类商品,监控这五类商品的购买数,优先将购买数高的商品推送给用户,使用在搜索该类商品后,能在前三个或前五个商品页面看到这些购买数较高的商品,缩小用户寻找商品的时间,提高用户转化率。

2、 用户偏爱4756105、3607361、4145813、2355072、982926这五类商品,建议市场部门在平台的主要投放渠道,多投放这五类商品的广告,获取到更多的用户到平台。

3、 用户搜寻商品的时间段主要在下午6点至晚上11点,即大部分人下班后休息的时间。建议运营部门在这个时间段对这五类商品多策划一些营销活动,提高用户转化率。并对这五类商品中需求很高的一些商品,精确用户对这些商品的主要搜寻时间段,在这些主要的搜寻时间对该商品进行促销活动。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

mysql 用户流失_利用SQL对平台用户行为进行分析 的相关文章

  • [培训-无线通信基础-2]:无线电磁波传播机制(传播、衰减、链路预算)

    作者主页 文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 118667807 引言 既然无
  • vue crypto-js加解密

    1 安装crypto js npm install crypto js save 2 编写encrypt js const CryptoJS require crypto js import md5 from js md5 var key
  • 关于程序员【锁死】服务器

    干程序员这么多年 头一次听说 锁死 服务器这么个名词 乍一听到被媒体造的这个名词 觉着很突兀 自己念两遍就会感到头疼 恶心 想吐这么膈应 服务器到底是怎么 锁死 的 什么玩意 你看看人家 数据库系统概论 里面人家关于 锁 的一个翻译 死锁
  • ARM单片机通用IAP在线升级YMODEM协议

    ARM单片机通用IAP在线升级YMODEM协议 效果 YMODEM协议格式 移植修改接口 测试代码 代码获取 效果 YMODEM协议格式 接收开始流程 接收者1HZ发送接收状态 C C 代表字符 C 进入接收状态 发送者发送起始帧 SOH
  • 目标检测学习笔记+附入门资料+表面缺陷检测

    待更新补充 文章目录 放在最前 MARK入门阅读学习资料 一 目标检测基本概念 1 名词含义 目标检测 目标检测方法的分类 Bounding box 滑动窗口 R CNN步骤详解 交并比Interest over Union IoU 平均精
  • 对全连接层(fully connected layer)的通俗理解

    原文地址 https blog csdn net qq 39521554 article details 81385159 定义 全连接层 fully connected layers FC 在整个卷积神经网络中起到 分类器 的作用 如果说
  • matplotlib绘图

    孤影常伴灯 你在夜里写字 我在昏黄中布景 风吹皱那烟波浩渺的迷离 也想吹散关于你的记忆 你在红尘打坐 我在紫陌修佛 万般皆因果 何须嗔叹 闲来无事 索然无趣 忽而兴起 画几个简单的数据分析图 一 将数据生成柱状图 代码 coding utf
  • 【计算机网络】TCP/IP网络模型里这些问题你会吗

    零 为什么需要有TCP IP网络模型 不同设备的进程之间相互通信 需要网络通信 而设备存在多样性 需要兼容各种设备 从而协商出一套通用的网络协议 并且这个网络协议是分层的 每层都有各自的作用和职责 一 最上层是哪层 应用层 1 该层有哪些协
  • SQL 经典面试题:统计最近七天连续三天活跃的用户

    1 需求 给定 mid dt 的用户登录记录表 查找最近 7 天内连续 3 天活跃的用户 id 2 数据表 tmp table tmp login test CREATE TABLE tmp table tmp login test mid
  • 5G UE测量

    目录 系列文章目录 一 为何干测量 二 测量干了啥 三 何时干测量 四 用啥干测量 五 怎么干测量 如 以上就是今天要讲的内容 本文仅仅简单从缘由 结果 时机 原料 过程五个方面概述了5G UE测量大至的来龙去脉 一 为何测量 移动 性管理
  • 【hello Linux】进程信号

    目录 1 进程信号的引出及整体概况 2 信号的产生 1 键盘产生 2 进程异常 3 系统调用 4 软件条件 3 信号的保存 1 信号相关的常见概念 2 sigset t 3 信号集操作函数 4 sigprocmask 对block位图的操作
  • 5.4双积分ADC工作原理

    文章目录 1 高中几个知识点 exp n log n lgx lnx 电容充放电公式 2 双积分型ADC工作原理 3 SAR和 型模数转换器 ADC 1 高中几个知识点 exp n exp函数即指数函数 e的n次方的函数 自然常数e 2 7
  • Java 异常创建及控制

    最近在重新拾起Java 想开始分享一些自己的表达 就从这里开始了 Java中有一个Throwable类 它是所有异常或者说是违例的基础 包括了两种类型的异常 一种叫Error 表示的是编译器和系统错误 我们通常不需要去在意它们 另一种叫Ex
  • 国产版ChatGPT大盘点

    我们看到 最近 国内大厂开始密集发布类ChatGPT产品 一方面 是因为这是最近10年最大的趋势和机会 另一方面 国内的AI 不能别国外卡了脖子 那在类ChatGPT赛道上 哪些中国版的ChatGPT能快速顶上 都各有哪些困境需要突破呢 本
  • 第七周作业1

    1 调试分析课本每一个例题 有可能的话更改成2 3个方法的新程序 2 编程实现课本每一个编程习题 例5 1 include
  • LSM-Tree

    LSM Tree的设计思路是 将数据拆分为几百M大小的Segments 并是顺序写入 它的核心思路其实非常简单 就是假定内存足够大 因此不需要每次有数据更新就必须将数据写入到磁盘中 而可以先将最新的数据驻留在内存中 等到积累到最后多之后 再
  • 递归与迭代

    迭代 迭代 迭代简单来讲就是循环 类比于我们循环输出某一个字符数组时的情景 从字符数组中不断取出字符 再将字符输出 迭代的循环过程则是从栈 或者队列 中不断取出要操作的元素 进行操作 与普通循环过程不同的是在不断取出元素的同时也会向栈中放入
  • Java8中Collectors的使用

    前言 基本类型的流没有这个用法 文章目录 averagingDouble averagingInt averagingLong collectingAndThen counting groupingBy groupingByConcurre
  • IRQ和FIQ中断的区别

    FIQ和IRQ是两种不同类型的中断 ARM为了支持这两种不同的中断 提供了对应的叫做FIQ和IRQ处理器模式 ARM有7种处理模式 一般的中断控制器里我们可以配置与控制器相连的某个中断输入是FIQ还是IRQ 所以一个中断是可以指定为FIQ或

随机推荐

  • Mac下如何降级Java、卸载Java

    前言 安装一些组件或插件时 有时会提示错误 What went wrong Could not determine java version from 11 查看组件或插件对应的Java版本会发现 可能只支持 Java 8 但本地安装的Ja
  • 《网络安全》零基础教程-适合小白科普

    网络安全 零基础教程 目录 目录 网络安全 零基础教程 第1章 网络安全基础 什么是网络安全 常见的网络安全威胁 网络安全的三个基本要素 网络安全的保障措施 第2章 网络攻击类型 病毒 蠕虫 木马 后门 DoS DDoS攻击 SQL注入 X
  • Java入门项目——读书管理系统

    Java简单实现读书管理系统 一 前言 二 思路及整体框架 三 代码展示 1 有关读书包 Book 2 有关用户包 3 有关操作书的包 一 前言 相信有很多小伙伴学习完了 JavaSE 基础语法 想知道自己到底学的怎么样 或则学完不知道这么
  • 使用RT-Thread studio 把LVGL移植到RT-Thread 上

    使用RT Thread studio 移植 LVGL到RT Thread中 其实RT Thread 移植LVGL 官方已经出来很多教程 但是但是他出的教程都是基于一些他们适配的BSP 但是其他不适配的怎么办呢 当然是手搓了 前期准备 1 在
  • 深入理解Golang之Map

    目录 写在前面 哈希表 如何解决哈希冲突的问题 1 链表地址法 2 开放地址法 开放地址 线性探测法 开放地址 平方探测法 开放地址 双哈希 Go Map实现 map数据结构 map的结构体为hmap bmap结构体 map的桶 Map扩容
  • 【使用JMeter 对Web服务器压力测试】

    自己使用JMeter测试百度心得 主要用到了 1 添加线程组 一个测试的线程容器 可设置线程个数 循环次数 所有线程启动一次的周期时间 2 在线程组 中添加sample gt http request 一个请求的范式 可以设置请求的url和
  • 关于单个模型切片

    这几天鼓捣了模型切片 遇到好多坑 特此记录 1 切片切什么 切的是模型 模型可以通过Nodevisitor转换为geode 而geode可以分为若干drawable 切的就是这些drawable 因此 要node gt accept vis
  • APP更新机制-静默更新、弱更新、强更新/portal是什么?

    APP更新机制 静默更新 弱更新 强更新 一 静默更新 1 1 功能解释 静默更新就是手机系统悄悄的更新 一般会是用户在应用市场勾选了Wifi状态下 闲时自动更新功能后 手机系统会按它的规则帮用户自动更新APP 这个功能和用户手动去应用市场
  • vue 校验表单报错:model is required for validate to wor

    参考https blog csdn net qq 45376290 article details 107346110 1 属性绑定错误 确保绑定的是 model 而不是v model model 是element ui 里面的一个 属性
  • 压缩感知 热身实验 OMP算法Python实现(详细代码注释)

    压缩感知实验 OMP算法Python实现 一维图信号重建 Experiment Result 一维图信号重建 coding utf 8 Created on Wed Sep 23 21 46 43 2020 author chen impo
  • GetLastError返回值及其含义

    GetLastError返回的值通过在api函数中调用SetLastError或SetLastErrorEx设置 函数并无必要设置上一次错误信息 所以即使一次GetLastError调用返回的是零值 也不能担保函数已成功执行 只有在函数调用
  • dhcp和vrrp技术

    目录 引言 一 DHCP工作原理与配置 1 DHCP 动态主机配置协议 2 DHCP工作原理 3 dhcp配置 同网段 4 dhcp中继 不同同网段 5 例子 二 vrrp作用配置 1 vrrp作用 2 vrrp配置 总结 引言 我们每台电
  • Android系统裁剪:手把手教你如何进行系统裁剪

    内容有点长 想系统裁剪 这篇文章足矣 看完会对系统裁剪及系统有更深的认识 前言 android系统裁剪优化一直是各个厂商定制产品的关键步骤 包括浅层次的去除不必要的apk android apk裁剪定制 和深层次的裁剪整个编译系统和框架层
  • 跨境外贸必看

    Pinterest是一个海外图片社交分享网站 Pinterest与国内小红书的营销方式非常相似 它允许我们定位特定的人群 兴趣甚至位置 借助庞大的用户群体和针对特定受众的能力 它成为外贸与跨境电商的推广营销利器 越来越多的跨境玩家利用它进行
  • 虚拟机opnsense作为dhcp服务器,在OPNsense中,通过主机名或域名访问内部设备

    在局域网环境中 使用域名来访问防火墙或其他设备比使用IP地址更容易让人使用 根据需要 我们可以只使用主机名 服务器 来访问设备上的各种服务 例如文件共享 它比包含域名的名称要短 如果打算运行Web服务器或运行具有Web界面的软件 则可能需要
  • Faster RCNN训练自己的数据集【傻瓜式教程】

    一 下载源码 本文采用的源码是 https github com dBeker Faster RCNN TensorFlow Python3 二 配置环境 由于本文是小白教程 光写几个环境怕有人配置不好或者配置版本搞乱 Faster RCN
  • ELK之Elasticsearch常用DSL语句(kibana语句)

    DSL 是什么 DSL Domain Specific Language 的缩写 中文翻译为领域特定语言 Wikipedia 对于 DSL 的定义还是比较简单的 A specialized computer language designe
  • 8.2.3-elasticsearch内置分词器之keyword/pattern

    ES默认提供了八种内置的analyzer 针对不同的场景可以使用不同的analyzer 1 keyword analyzer 1 1 keyword类型及分词效果 keyword analyzer视字符串为一个整体不进行分词处理 测试key
  • Java多线程编程基础篇(二)-多线程同步关键字

    一 多线程同步关键字 synchronized 1 概念 synchronized保证方法或者代码块在运行时 同一时刻只有一个方法可以进入到临界区 同时它还可以保证共享变量的内存可见性 当多个并发线程访问同一个对象object中的同步代码块
  • mysql 用户流失_利用SQL对平台用户行为进行分析

    一 提出问题 1 平台的用户流失情况是怎样的 2 造成该种流失情况是原因是什么 二 理解数据 1 数据来源 https tianchi aliyun com dataset dataDetail dataId 649 userId 1 本数