一、提出问题
1、 平台的用户流失情况是怎样的?
2、 造成该种流失情况是原因是什么?
二、理解数据
1、 数据来源
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。
数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,源文件数据100,150,807条
2、 字段含义
列名称说明
用户ID:字符串类型,用户ID
商品ID:字符串类型,商品ID
商品类目ID:字符串类型,商品所属类目ID
行为类型:字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')
时间戳:整型,行为发生的时间戳
注意到,用户行为类型共有四种,它们分别是
行为类型说明
pv:商品详情页pv,等价于点击
buy:商品购买
cart:将商品加入购物车
fav:收藏商品
三、数据清洗
通过数据库管理工具Navicat将数据集导入MySQL数据库中。
1、 选择子集
数据集全部为有效记录,由于数量巨大,故此仅随机导入了10,0000以供后续分析。
2、 删除重复值
无重复值
3、 缺失值处理
对所有列进行计数,计数结果都为99999,不存在缺失值。
4、 一致化处理
由于timestamp包含了(年-月-日)和小时,为了方便,将该字段分成2个字段,一个日期列一个时间列
5、 异常值处理
检查是否有错误时间戳,如负数或者0;不存在错误时间戳
检查表内date数据是否在2017-11-25至2017-12-03之间;
以上,数据准备完毕!
四、构建模型
1、 用户流失情况
用户行为包括点击、放进购物车、收藏以及购买,点击占总行为数的89.7%,而放进购物车只占5.45%,最后实际购买占2.1%,用户流失主要在放进购物车这一环节上。
可能出现的原因是用户在花了大量时间搜寻不到自己想要的产品,以至于放弃在平台上购买转而去其他平台购买。
针对这个猜测,从以下两个维度分析验证此猜测:
1) 用户想要在平台找到什么产品
2) 平台推送的产品是否满足用户需求
2、 用户流失情况原因分析
1) 用户像要在找到什么产品
衡量用户最想要在平台找到什么产品,最终要的指标是商品点击数。通过该项指标,可最大程度上了解到哪类产品用户的需求量较大,哪类产品是需求较小。
从图中可以看出,商品类别为4756105、3607361、4145813、2355072、982926点击数最高,说明用户最想在平台中找到这五类商品,在这五种类型下,各类点击数排名前三的商品又为:
从图中可以看出,各类商品中,4756105类的商品需求最高。
根据以上结果,分析在2017-11-25至2017-12-03这几天内和一天内用户寻找这五类商品的主要时间段
从图中可以看出,982926、4756105这两类产品在12月2日点击量剧增,可能是当天这两款产品有推广活动。
一天内用户寻找这五类商品的主要时间段
可以看出,这五类产品的用户点击数从每日0点到5点快速降低,3点左右降到一天中的点击数最低值,6点至10点用户点击数快速上升,10点至18点用户点击数比较平稳,18点至23点用户点击数快速上升,21点左右打到一天中的最高值。
综合上述分析可知,用户在平台最想要寻找到的商品类别编号为:4756105、3607361、4145813、2355072、982926的这五类商品,在这五类商品中,4756105的商品需求最高。用户主要集中在下午6点至晚上11点在平台寻找这几类商品。
因为数据集有限,只能大致分析出用户想要寻找哪几类商品,若要更细致地分析出用户想要什么样的商品,还需要知道用户使用的搜索高频词,利用该项数据建立用户搜索画像,并结合商品点击数数据,建立搜索点击率指标,分析总结点击率高的搜索高频词和点击率低的搜索高频词。从而更精确地总结出用户在平台最想要寻找什么商品。
2) 平台推送的商品是否满足用户需求
从上一步中分析出用户想要寻找什么产品后,接下来需要知道平台筛选推送的商品是否满足了用户的需求。
首先从商品数量占比分析这五类商品是否在平台上足够多,以供用户选择。
从以上结果可以看出,平台共有3128种商品,种类繁多,而需求量最多的前五类商品在商品数量上一共占到了27.6%,说明平台对这五类商品提供了足够多的选择。
在选择足够多多的情况下,需从商品购买数上分析平台对这五类商品的推送机制是否合理,即用户搜索某类商品后,出现的商品是否满足用户的需求。
从上图可以看出,除了4145813类商品的购买次数较多以外,其他需求多的四类商品的购买次数并不多,甚至都没有进入购买次数的前五名。以下是需求最多的五类商品的购买次数:
从图上可以看出,需求最高的五类商品 购买数都远低于购买数最高的五类商品,说明平台对这五类需求最高的商品的推送机制并不合理,平台给用户推送的这五类商品没有满足客户的要求,即用户在点击查看该类商品后,发现并不是自己想要的商品放弃加入购物车,造成转化率降低。
五、结论
根据以上分析,证实了前面的猜测,平台用户在放进购物车环节流失严重的原因是,用户在平台花了大量时间搜索寻不到自己想要的商品,以至于放弃在平台购买商品,转而去其他平台购买。
六、建议
1、 建议相关部门改善平台推送商品机制,尤其针对需求量最高的4756105、3607361、4145813、2355072、982926这五类商品,监控这五类商品的购买数,优先将购买数高的商品推送给用户,使用在搜索该类商品后,能在前三个或前五个商品页面看到这些购买数较高的商品,缩小用户寻找商品的时间,提高用户转化率。
2、 用户偏爱4756105、3607361、4145813、2355072、982926这五类商品,建议市场部门在平台的主要投放渠道,多投放这五类商品的广告,获取到更多的用户到平台。
3、 用户搜寻商品的时间段主要在下午6点至晚上11点,即大部分人下班后休息的时间。建议运营部门在这个时间段对这五类商品多策划一些营销活动,提高用户转化率。并对这五类商品中需求很高的一些商品,精确用户对这些商品的主要搜寻时间段,在这些主要的搜寻时间对该商品进行促销活动。