日志服务LogHub功能提供日志数据实时采集与消费,其中实时采集功能支持30+种手段,这里简单介绍下各场景的接入方式。
数据采集一般有两种方式,区别如下。我们这里主要讨论通过LogHub流式导入(实时)采集。
方式 |
优势 |
劣势 |
例子 |
批量导入 |
吞吐率大,面向历史存量数据 |
实时性较差 |
FTP、OSS上传、邮寄硬盘、SQL数据导出 |
流式导入 |
实时,所见即所得,面向实时数据 |
收集端要求高 |
LogHub、HTTP上传、IOT,Queue |
背景
“我要点外卖“是一个平台型电商网站,用户、餐厅、配送员等。用户可以在网页、App、微信、支付宝等进行下单点菜;商家拿到订单后开始加工,并自动通知周围的快递员;快递员将外卖送到用户手中。
运营需求
在运营的过程中,发现了如下的问题:
- 获取用户难,投放一笔不小的广告费对到渠道(网页、微信推送),收货了一些用户,但无法评判各渠道的效果
- 用户经常抱怨送货慢,但慢在什么环节,接单、配送、加工?如何优化?
- 用户运营,经常搞一些优惠活动(发送优惠券),但无法获得效果
- 调度问题,如何帮助商家在高峰时提前备货?如何调度更多的快递员到指定区域?
- 客服服务,用户反馈下单失败,用户背后的操作是什么?系统是否有错误?
数据采集难点
在数据化运营的过程中,第一步是如何将散落日志数据集中收集起来,其中会遇到如下挑战:
- 多渠道:例如广告商、地推(传单)等
- 多终端:网页版、公众账号、手机、浏览器(web,m站)等
- 异构网:VPC、用户自建IDC,阿里云ECS等
- 多开发语言:核心系统Java、前端Nginx服务器、后台支付系统C&#