Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark SQL 项目:实现各区域热门商品前N统计
一 需求1 1 需求简介这里的热门商品是从点击量的维度来看的 计算各个区域前三大热门商品 并备注上每个商品在主要城市中的分布比例 超过两个城市用其他显示 1 2 思路分析使用 sql 来完成 碰到复杂的需求 可以使用 udf 或 udaf查
数据仓库
数据建模
spark
Spark SQL
Apache Spark
数据湖--概念、特征、架构与案例概述
一 什么是数据湖 数据湖是目前比较热的一个概念 许多企业都在构建或者计划构建自己的数据湖 但是在计划构建数据湖之前 搞清楚什么是数据湖 明确一个数据湖项目的基本组成 进而设计数据湖的基本架构 对于数据湖的构建至关重要 关于什么是数据湖 有如
数据建模
数据仓库
数据湖
架构
数据湖概念特征架构
模型调参之网格搜索与随机搜索
模型调参之网格搜索与随机搜索 网格搜索法 GridSearchCV GridSearchCV GridSearchCV可以拆分成GridSearch和CV两部分 即网格搜素和交叉验证 GridSearch系统地遍历多种参数组合 通过交叉验证
数据建模
2022年第十四届电工杯赛题分析
作为2022年上半年最后一场建模比赛的电工杯 为期72个小时 在众多建模比赛中 电工杯属于难度大 比赛时间短 知名度大的比赛 在我个人看来 电工杯可以作为美赛国赛之下第二梯队建模比赛里的头号比赛 因此 为了更好选题比赛 本次比赛我将在本篇文
数学建模
数据建模
算法
第四讲 系统建模方法
系统建模一般流程 实际系统的分析方法大致类似 但对于实际系统的模型实现方式则有多种 1 面向方程 图框 的因果建模 基于图框进行系统模型实现 的软件很多 如Simulink AMESim 应用于控制领域 等 2 面向对象 非因果 的物理建模
系统建模与仿真
数据建模
人工智能
modelica
数据仓库主题三-(实施篇)
背景 如何从具体的需求或项目转换为可实施的解决方案 如何进行需求分析 架构设计 详细模型设计等 则是模型实施过程中讨论的内容 业界常用两种数据仓库建设模型思想分为两种kimball和inmon模型 具体的kimball和inmon 模型思想
数据仓库
hive
数据建模
Hadoop
大数据
基于宽表的数据建模
一 业务背景 1 1 数据建模现状 互联网企业往往存在多个产品线 每天源源不断产出大量数据 这些数据服务于数据分析师 业务上的产品经理 运营 数据开发人员等各角色 为了满足这些角色的各种需求 业界传统数仓常采用的是经典分层模型的数仓架构 从
数据分析
数据建模
实战
大数据
基于宽表的数据建模
基于RBAC模型的权限设计思路
一 RBAC模型 进行设计前 最好能够理解技术模型 在业界接受度较高的功能权限模型是RBAC Role Based Access Control 模型 其基本理念是将 角色 这个概念赋予用户 在系统中用户与权限之间通过角色进行关联 以这样的
数据建模
系统设计
权限设计
RBAC模型
详解用户画像
01画像简介 用户画像 即用户信息标签化 通过收集用户的社会属性 消费习惯 偏好特征等各个维度的数据 进而对用户或者产品特征属性进行刻画 并对这些特征进行分析 统计 挖掘潜在价值信息 从而抽象出用户的信息全貌 如图1 1所示 用户画像可看作
数据仓库
大数据
数据建模
用户画像
数据仓库模型设计V2.0
一 数仓建模的意义 数据模型就是数据组织和存储方法 它强调从业务 数据存取和使用角度合理存储数据 只有将数据有序的组织和存储起来之后 数据才能得到高性能 低成本 高效率 高质量的使用 高性能 良好的数据模型能够帮助我们快速查询所需要的数据
数据仓库
数据建模
实战
spark
大数据
10道海量数据处理
1 海量日志数据 提取出某日访问百度次数最多的那个IP 此题 在我之前的一篇文章算法里头有所提到 当时给出的方案是 IP的数目还是有限的 最多2 32个 所以可以考虑使用hash将ip直接存入内存 然后进行统计 再详细介绍下此方案 首先是这
数据仓库
数据建模
哈希算法
10道海量数据处理
海量数据处理问题
数据仓库主题十-(周期快照事实表)
综述 当我们在实际工作过程中涉及到一些指标的计算比如账户余额 买卖家星级 商品库存 卖家累积交易额等计算中 则需要聚集与之相关的事务才能进行识别计 或者聚集事务无法识别 比如 温度等 对于这些状态度量 事务事实表是无效率的 而这些度量也和度
数据建模
数据仓库
hive
Hadoop
sklearn的make_classification函数生成随机的n类分类
目录 make classification函数生成随机的n类分类问题的简介 示例如下 以下内容为官网内容以及个人的总结 下面有运行的示例 可以结合示例来对此函数进行了解 如需更多知识可以在中文官网查看 sklearn datasets m
数据建模
机器学习
sklearn
人工智能
python
大数据开发:数仓建模常见数据模型
在数据仓库搭建的过程当中 根据需求合理地选择数据模型 是非常关键的一个环节 对于数仓建模 很多人说不就是建表吗 哪有那么复杂 事实上 这是非常错误的思想 今天的大数据开发分享 我们来聊聊数仓建模常见的几种数据模型 目前来说 市场上主流的数据
大数据
数据仓库
数据建模
阿里大数据之路:数据模型篇大总结
第1章 大数据领域建模综 1 1 为什么需要数据建模 有结构地分类组织和存储是我们面临的一个挑战 数据模型强调从业务 数据存取和使用角度合理存储数据 数据模型方法 以便在性能 成本 效率之间取得最佳平衡 成本 良好的数据模型能极大地减少不必
数据库
数据结构
数仓
数据建模
数据模型建模详解
问题导读 1 数据层次如何划分 2 如何进行数据划分及命名空间约定 3 ODS层分为几部分 数据层次的划分 ODS Operational Data Store 操作数据层 在结构上其与源系统的增量或者全量数据基本保持 一致 它相当于一个数
实时数仓
数据建模
数据分析
数据模型建模详解
数据模型
原子指标和衍生/派生指标
按照个人的理解 不加任何修饰词的指标就是原子指标 也叫度量 一般存在于olap表中 例如订单量 用户量的等等 而在原子指标上进行加减乘除或者修饰词的限定等等都是派生指标 衍生 派生指标 原子指标 时间周期 修饰词 例如 近7天订单量 近7天
数据建模
hive
数据分析
bi
数据仓库指标体系实践
指标体系 1 痛点分析 主要从业务 技术 产品三个视角来看 业务视角 业务分析场景指标 维度不明确 频繁的需求变更和反复迭代 数据报表臃肿 数据参差不齐 用户分析具体业务问题找数据 核对确认数据成本较高 技术视角 指标定义 指标命名混乱 指
实战
数据仓库
数据建模
数据仓库指标体系实践
指标体系
数据仓库之ODS层设计概要
ODS层辨析 ODS全称是Operational Data Store 即操作数据存储 Inmon VS Kimball Bill Inmon的定义 ODS是一个面向主题的 集成的 可变的 当前的细节数据集合 用于支持企业对于即时性的 操作
数据仓库
实战
数据建模
ODS层
数据分析时,进行数据建模该如何筛选关键特征?
1 为什么要做关键特征筛选 在数据量与日俱增的时代 我们收集到的数据越来越多 能运用到数据分析挖掘的数据也逐渐丰富起来 但同时 我们也面临着如何从庞大的数据中筛选出与我们业务息息相关的数据 大背景 从数据中挖掘潜在的规律 辅助我们在实际业务
数据分析
机器学习
数据挖掘
数据建模
1
2
»