操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成

2023-05-16

需求：

用spark来进行数据ETL：

清洗：
- 去除json数据中的废弃字段
- 过滤json格式不正确的脏数据
- 过滤日志中的account及deviceid全为空的记录
- 过滤日志中缺少关键字段（properties/eventid/sessionid缺一不可）的记录
- 过滤日志中不符合时间段的记录（由于app上报日志可能的延迟，有数据延迟到达）
- 对于web端日志，过滤爬虫请求数据（通过useragent标识来分析）
转换：
- 将json打平，解析成扁平结构，主要是里面json的事件日志
- session分割：
  - 对于web端日志，按天然session分割，不需要处理
  - 对app日志，由于使用了登录保持技术，导致app进入后台很长时间后，再恢复前台，依然是同一个session，不符合session分析定义，需要按事件间隔切割（业内通用：30分钟）
  - 对于wx小程序日志，与app类似，session有效期很长，需要按事件间隔时间切割
- 数据规范处理：
  - boolean字段，在数据中有使用1/0/-1标识的，也有使用true/false表示的，统一为Y/N/U
  - 字符串类型字段，在数据中有空串，有null值，统一为null值（这个很重要，会影响计算）
  - 日期格式统一：2020/9/2 2020-9-2 20200902等都统一变成YYYY-MM-dd
集成：
- gps坐标解析为省、市、县信息，方便后续的地域维度分析
- 若gps找不到的地域信息，使用ip进行解析
- id_mapping：为每个用户生成一个全局唯一标识（给匿名访问，绑定到一个id上，漏斗、留存、session）

操作实现：

1、构建：一个父工程、两个模块：datahouse数仓系统、usertag用户画像

父工程maven

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>pub.ryan</groupId>
    <artifactId>tm_sensys</artifactId>
    <packaging>pom</packaging>
    <version>1.01</version>
    <modules>
        <module>datahouse</module>
        <module>usertag</module>
    </modules>

    <properties>
        <spark.version>3.0.1</spark.version>
        <lang3.version>3.10</lang3.version>
        <fastjson.version>1.2.68</fastjson.version>
    </properties>

    <!-- 父工程中引入的依赖，所有子模块都会继承-->
    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.12.12</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>${fastjson.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
            <version>3.10</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.48</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>3.3.0</version>
        </dependency>
    </dependencies>

    <!--依赖管理，并不会真正引入依赖，而是约束子模块中对这个依赖的引用-->
    <dependencyManagement>
        <dependencies>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-sql_2.12</artifactId>
                <version>${spark.version}</version>
                <!--<exclusions>
                    <exclusion>
                        <groupId>org.apache.hadoop</groupId>
                        <artifactId>hadoop-client</artifactId>
                    </exclusion>
                </exclusions>-->
            </dependency>
        </dependencies>
    </dependencyManagement>


    <repositories>
        <repository>
            <id>nexus-aliyun</id>
            <name>Nexus aliyun</name>
            <layout>default</layout>
            <url>http://maven.aliyun.com/nexus/content/groups/public</url>
            <snapshots>
                <enabled>false</enabled>
                <updatePolicy>never</updatePolicy>
            </snapshots>
            <releases>
                <enabled>true</enabled>
                <updatePolicy>never</updatePolicy>
            </releases>
        </repository>
    </repositories>

    <pluginRepositories>
        <pluginRepository>
            <id>ali-plugin</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <snapshots>
                <enabled>false</enabled>
                <updatePolicy>never</updatePolicy>
            </snapshots>
            <releases>
                <enabled>true</enabled>
                <updatePolicy>never</updatePolicy>
            </releases>
        </pluginRepository>
    </pluginRepositories>

    <build>
        <plugins>
            <!-- 指定编译java的插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.5.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <!-- 指定编译scala的插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

            <!--  把依赖jar中的用到的类，提取到自己的jar中 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.6</version>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>pub.ryan.dw.etl.DeviceIdAccountBind</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <!--下面是为了使用 mvn package命令，如果不加则使用mvn assembly-->
                <executions>
                    <execution>
                        <id>make-assemble</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

datahouse数仓pom

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>tm_sensys</artifactId>
        <groupId>pub.ryan</groupId>
        <version>1.01</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>datahouse</artifactId>

    <dependencies>
        <dependency>
            <groupId>org.openx.data</groupId>
            <artifactId>json-serde</artifactId>
            <version>1.3.8</version>
        </dependency>
        <dependency>
            <groupId>ch.hsr</groupId>
            <artifactId>geohash</artifactId>
            <version>1.3.0</version>
        </dependency>
        <dependency>
            <groupId>org.lionsoul</groupId>
            <artifactId>ip2region</artifactId>
            <version>1.7.2</version>
        </dependency>
    </dependencies>
</project>

测试：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成的相关文章

生成2023年节假日/工作日维表

项目中有一张维表 xff0c 维护的是历史节假日工作日的信息 xff0c 估计在很多场合都有类似的需求到了新年 xff0c 需要生成新一年的数据 xff0c 下面看看如何在维表中插入新一年的数据 1 查询节假日根据国务院发布的休假信息
C++智能指针

参考 xff1a 头文件auto ptr使用示例 unique ptr类模板声明示例 shared ptr模板声明通过辅助类模拟实现 shared ptrshared ptr使用示例 weaked ptrweak ptr 用法weak pt
使用SiftGPU对两幅图像进行特征点匹配

前言继上一篇博客中谈到使用Changchang Wu的SiftGPU xff0c 使用GLSL语言在Windows系统下的编译方法http blog csdn net qq 36007951 article details 7847234
CAN通信学习笔记（一）

1 CAN通信的基本原理 1 1 基本概念 CAN 是 Controller Area Network 的缩写 xff08 以下称为 CAN xff09 xff0c 是 ISO 国际标准化的串行通信协议在北美和西欧 xff0c CAN 总
DSP28335 SCI FIFO深度设置

SCI工作在FIFO模式下一般是因为所传输的信息并不是以一个字节为单位 xff0c 而是以多个字节组成的一个包为单位的如果一包数据包括10个字节 xff0c 可以设置FIFO接收中断为10个字节时产生中断设置以后 xff0c 每接收到1
Serial Studio简单使用说明

Serial Studio简介 Serial Studio是一个跨平台的软件 xff0c 支持将串口 xff0c TCP UDP xff0c MQTT等协议传输数据 xff0c 并将数据可视化显示 xff0c 方便嵌入式开发人员实现数据的可
YOLOV1个人理解总结

YOLO是著名的端到端目标检测框架 xff0c 最大的特点是检测快 xff0c 亲自试验YOLOv3 v5 v5在jeston Xavier NX上可以达到15FPS左右 xff0c 检测精度也相当可观 xff0c 可以达到实时检测 xff
STM32HAL库-USART-调试串口（大小端测试）

概述本篇文章介绍如何使用STM32HAL库 xff0c USART 调试串口 xff08 大小端测试 xff09 示例硬件 xff1a STM32F103CBT6最小系统板软件 xff1a Keil 5 29 43 STM32Cube
Windows下实现C语言Socket通讯TCP传送结构体信息

版权声明 xff1a 本文为博主原创文章 xff0c 未经博主允许不得转载 Windows下实现C语言Socket通讯 lt TCP传送结构体信息 gt 首先socket通信的步骤 xff1a 三次握手协议三次握手协议代码服务器端 i
#STC8A8K# #STC8F1K# #STC8G1K# #STC8H1K# ——STC8系列单片机整体评价

成就更好的自己声明 xff1a 这不是广告 xff0c 只是发表看法和吐槽 xff0c 不吹不擂 xff1b 本文以STC8A8K64S4A12 为例 xff0c 简要分析一下STC8系列 xff1b STC 宏晶科技公司作为国内的一家
拓展模块使用教程和心得(三)：ULN2003模块与28BYJ48步进电机(测试平台:STC8A8K,STM32F103)

成就更好的自己关于ULN2003模块和对应的28BYJ48步进电机 xff0c 网上现有的资料与教程对于初学者有点不太友好 xff0c 造成的现象是仅仅只能让步进电机转起来 xff0c 但是没有对于控制转速和转角的实践分析 xff0c 本
intellij 从2020升级到2023 踩坑实录

1 下载新版本intellij 工作机器上的intellij版本为2020社区版 xff0c 版本比较老旧 xff0c 需要进行升级 IDE这种提高生产力的工具 xff0c 还是蛮重要的 xff0c 也是值得稍微多花点时间研究一下的升级之
拓展模块使用教程和心得(五)：HC08及HC系列蓝牙模块

成就更好的自己今天在做单片机的数据采集并给PC处理 xff0c 根据前期的想法本来是要使用nRF24L01进行的 xff0c 奈何nRF无线模块转USB接口太不给力 xff0c 因此使用到了HC08作为发送和接收数据的模块目录简介内
ROS四旋翼无人机快速上手指南(3)：工作环境文件框架与各功能包整体讲解

成就更好的自己这一章节主要讲解无人机平台的控制文件架构和各个功能包组成和用法 uav ws与shell源码链接 xff1a https gitee com theroadofengineers ros uav 目录主要项目文件架构概述
STM32程序不运行与MicroLIB讲解

成就更好的自己目录引言什么是MicroLIB 不使用Microlib导致卡死的原理卡死解决办法 xff1a 优化空间测评引言先说问题 xff0c 这几天在使用STM32H750调试程序的过程中出现了一些问题 xff0c 博主使用
拓展模块使用教程和心得(7)：3irobotix杉川Delta-1A激光雷达的STM32F407HAL驱动

成就更好的自己随着现代智能化设备程度的提高 xff0c 激光雷达已经是在智能控制与检测领域的极其常用的智能化传感器 xff0c 今天就来介绍一下3irobotix公司的Delta 1A激光雷达 Delta 1A激光雷达是一款低成本中等性能
RT-Thread&&STM32开发系列(2)：FAT头文件包含报错与RTT和CubeMX文件兼容问题

成就更好的自己近期的项目需要在RTT下 xff0c 使用SD卡运行FAT文件系统 xff0c 而且还能通过USB将这个SD卡虚拟化成大容量可存储设备 xff0c 在项目初期遇到了一些小问题 xff0c 记录一下 xff0c 防止别的朋友踩
[已解决] RTT 串口DMA接受开头丢失一整包的问题

起因项目需求需要设备通过串口的方式发送信息 xff0c STM32F4将串口的信息接收并保存到SD卡中 xff1b 通过XCOM串口助手发送文件的方式进行功能测试 xff0c 测试的时候发现总会丢弃一部分头项目需要两路串口都保存到SD卡
用实际的激光雷达和里程计运行gmapping历程

我用的激光雷达是LMS1XX系列的 xff0c 该系列的激光雷达有ROS下的驱动程序可以到网上下载编译里程计是自己机器人发布的信息一开始以为自己得到了这两个信息就能运行gmapping了 xff0c 结果发现自己太天真上网查了一下原因
无数四轴的航模常识

KV 值无刷电机KV值定义为转速 V xff0c 意思为输入电压增加1伏特 xff0c 无刷电机空转转速增加的转速值例如KV1000的无刷电机 xff0c 代表电压为11V的时候 xff0c 电机的空转转速为11000转分 KV值越

随机推荐

5G系统的性能指标

ITU R制定了5G系统的8个性能指标和3种应用场景流量密度 xff1a 10Tbit s km 2 连接数密度 xff1a 10 6每平方千米时延 xff1a 空口1ms 能效 xff1a 相对于4G xff0c 100倍提升用户体
find命令用法小结

0 前言不管我决心如何组织文件 xff0c 似乎总有无法找到文件的时候有时是因为我不记得最初的文件名 xff0c 其他时候 xff0c 我知道名字 xff0c 但我不记得在哪里保存它了甚至有时我需要一个我最初就没有创建的文件但是 x
在EBAZ4205 zynq7010上运行AXI_DMA中断回环测试

在EBAZ4205 zynq7010上运行AXI DMA loop interrupt 整体的布局图这是上面的一张接口图下面对每个模块附上截图 AXI DMA的输出mm2s introut s2mm introut接到PS系统的中断触发
http 方式请求pos请求和get请求，认证方式用户名密码

利用apache包请求get和post请求 xff0c 用户名和密码认证 xff0c 用户名密码填则认证 xff0c 不填测不认证利用maven构建项目需要导入一个包 lt dependency gt lt groupId gt org
jenkins部署jar包到远程服务器

jenkins部署jar包到远程服务器 1 安装Publish Over SSH插件2 配置ssh以及jenkins的ssh配置3 jenkins任务的配置4 总结一 xff0c 安装Publish Over SSH插件 xff0c 进入
java把文件流转base64，然后前端展示base64图片

一 xff0c java端 1 xff0c 项目是基于springboot的读取本地图片 xff0c 转成base64编码字节数组字符串 xff0c 传到前端 2 xff0c 这种传输图片的方式可以用于Java后台代码生成条形码二维码 x
使用nacos配置教程

1 xff0c 访问nacos网页默认nacos网页为 uat环境地址进入网页默认账号 nacos 密码 nacos 2 xff0c 配置管理 1 xff0c 页面概述进来页面如下 xff0c 我已经建立了三个命名空间 xff0c
redis实现延时队列的两种方式

背景项目中的流程监控 xff0c 有几种节点 xff0c 需要监控每一个节点是否超时按传统的做法 xff0c 肯定是通过定时任务 xff0c 去扫描然后判断 xff0c 但是定时任务有缺点 xff1a 1 xff0c 数据量大会慢 xf
go集成gin处理error

1 gin的使用 gin在go开发web的占比是挺大的很好用的web框架 xff0c 简单快速高效但是呢 xff0c 在使用gin的过程中 xff0c 如何去统一去处理error和数据返回给客户端呢 xff1f 原始的做法如下 xff1
Okhttp3最佳使用方式

Okhttp3最佳使用方式一 xff0c 使用前准备要使用okhttp3 xff0c 首先我们要引入相关依赖 xff0c 至于版本的选择 xff0c 就根据自己项目的需求了 span class token tag span class
Caused by: java.net.BindException: Address already in use: bind

这个报错是因为端口号已经被占用了 xff0c 那么就有两种解决方式 xff1a 换端口号或者杀掉这个进程一 xff0c 换端口号这个比较简单 xff0c 就是把tomcat的端口号改一下 xff0c 换一个没用的端口号就行了 1 xff
copilot平替tabnine解析

1 copilot 借着最近chatgpt大火的东风 xff0c copilot又重新火了一把什么是copilot xff1f 直接上wiki百科上的解释 GitHub Copilot是GitHub和OpenAI合作开发的一个人工智能工具
idea中scala的类型自动补全与关闭：Type Annotations

初学时建议全部打开 xff0c 知道当前操作的是什么类型的数据 xff0c 帮助更好理解打开路径 xff1a Settings gt Editor gt Code Style gt Scala gt Type Annotations 将所
idea中利用免费插件翻译源码中出现的单词

1 idea中安装Translation插件 2 有道智云注册id https ai youdao com 2 1 创建翻译实例 xff1a 信息随便填 2 2 创建应用 xff1a 信息随便填 xff0c 绑定服务时将创建的翻译实例绑定上
安装centos7的时候出现无法识别路经，按ctrl+x无法保存

修改安装盘卷标号 xff0c 不要有空格或特殊符号修改安装盘内 EFI BOOT grub cfg 第24行 xff0c 修改为对应的卷标号即可
mysql启动失败：Redirecting to /bin/systemctl restart mysql.service Failed to restart mysql.service: Unit

今天出现一个小问题 xff1a root 64 linux01 hive3 1 2 service mysql start Redirecting to bin systemctl restart mysql service Failed
spark报错：ERROR SparkContext: Error initializing SparkContext.

今天刚好spark history server 配好 xff0c 就出现了这个错误 xff1a ERROR SparkContext Error initializing SparkContext 最后一再仔细看 xff0c 才发现是sp
git:Clone failed: git: ‘permission denyed‘及Clone failed: git: ‘remote-https‘ is not a git command.

在centos中 1 Clone failed git 39 permission denyed 39 Could not read from remote repository 问题原因 xff1a git没有设置公钥时 xff0c 将g
UTM广告分析参数

由于目前工作的一部分是为运营提供一些流量分析的支持 xff0c 所以一些相应的基础知识就不得不学起来了目前其中一种需求 xff0c 就是统计广告的投放效果 xff0c 常规做法就是添加追踪 xff0c 在追踪链中添加utm参数 xff0c
操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成

需求 xff1a 用spark来进行数据ETL xff1a 清洗 xff1a 去除json数据中的废弃字段过滤json格式不正确的脏数据过滤日志中的account及deviceid全为空的记录过滤日志中缺少关键字段 xff08 proper

操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成

需求：

用spark来进行数据ETL：

清洗：

转换：

集成：

操作实现：

1、构建 ：一个父工程、两个模块：datahouse数仓系统、usertag用户画像

测试：

操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成 的相关文章

随机推荐

热门标签

1、构建：一个父工程、两个模块：datahouse数仓系统、usertag用户画像

操作手册2：建数仓，从ODS到DWD层——日志的清洗、转换、集成的相关文章