@
目录
- 第4章 数仓搭建-ODS层
- 4.2 ODS层(业务数据)
- 4.2.1 活动信息表
- 第5章 数仓搭建-DIM层
- 5.1 商品维度表(全量)
- 5.6 用户维度表(拉链表)
- 5.6.1 拉链表概述
- 5.6.2 制作拉链表
- 第6章 数仓搭建-DWD层
- 6.1 DWD层(用户行为日志)
- 6.1.1 日志解析思路
- 6.1.2 json_object函数使用
- 6.1.3 启动日志表
- 6.1.4 页面日志表
- 6.1.5 动作日志表
- 6.1.7 错误日志表
- 6.2 DWD层(业务数据)
- 6.2.2 订单明细事实表(事务型事实表)
- 6.2.4 加购事实表(周期型快照事实表,每日快照)
- 6.2.7 支付事实表(累积型快照事实表)
- 第7章 数仓搭建-DWS层
- 7.2 DWS层
- 7.2.1 访客主题
- 第8章 数仓搭建-DWT层
- 第9章 数仓搭建-ADS层
- 9.1 建表说明
- 9.3 用户主题
- 9.3.1 用户统计
- 9.3.2 用户变动统计
- 9.3.3 用户行为漏斗分析
- 9.3.4 用户留存率
- 9.5 订单主题
- 9.5.1 订单统计
- 9.5.2 各地区订单统计
- 第10章 全流程调度
数仓笔记
数据数据仓库和数据集市详解:ODS、DW、DWD、DWM、DWS、ADS
尚硅谷数据仓库实战之1项目需求及架构设计
尚硅谷数据仓库实战之2数仓分层+维度建模
尚硅谷数据仓库实战之3数仓搭建
1)保持数据原貌不做任何修改,起到备份数据的作用。
2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。
3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。
4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。
4.2.1 活动信息表
1.建表语句
5.6.1 拉链表概述
5.6.2 制作拉链表
1.建表语句
1)首日装载
拉链表首日装载,需要进行初始化操作,具体工作为将截止到初始化当日的全部历史用户导入一次性导入到拉链表中。目前的ods_user_info表的第一个分区,即2020-06-14分区中就是全部的历史用户,故将该分区数据进行一定处理后导入拉链表的9999-99-99分区即可。
2)每日装载
1)对用户行为数据解析。
2)对业务数据采用维度模型重新建模。
6.1.1 日志解析思路
1)日志结构回顾
6.1.2 json_object函数使用
Mysql中也有响应的JSON处理函数,不过性能没有hive高。
6.1.3 启动日志表
1)建表语句
6.1.4 页面日志表
页面日志解析思路:页面日志表中每行数据对应一个页面访问记录,一个页面访问记录应该包含日志中的公共信息和页面信息。先将所有包含page字段的日志过滤出来,然后使用get_json_object函数解析每个字段。
6.1.5 动作日志表
动作日志解析思路:动作日志表中每行数据对应用户的一个动作记录,一个动作记录应当包含公共信息、页面信息以及动作信息。先将包含action字段的日志过滤出来,然后通过UDTF函数,将action数组“炸开”(类似于explode函数的效果),然后使用get_json_object函数解析每个字段。
6.1.7 错误日志表
错误日志解析思路:错误日志表中每行数据对应一个错误记录,为方便定位错误,一个错误记录应当包含与之对应的公共信息、页面信息、曝光信息、动作信息、启动信息以及错误信息。先将包含err字段的日志过滤出来,然后使用get_json_object函数解析所有字段。
业务数据方面DWD层的搭建主要注意点在于维度建模。这边只是展示一个订单明细的实例,全部的文档请下载尚硅谷数仓实战笔记。
6.2.2 订单明细事实表(事务型事实表)
1)建表语句
6.2.4 加购事实表(周期型快照事实表,每日快照)
1)建表语句
6.2.7 支付事实表(累积型快照事实表)
1)建表语句
7.2.1 访客主题
1)建表语句
ADS层不涉及建模,建表根据具体需求而定。
9.3.1 用户统计
该需求为用户综合统计,其中包含若干指标,以下为对每个指标的解释说明。
1.建表语句
9.3.2 用户变动统计
该需求包括两个指标,分别为流失用户数和回流用户数,以下为对两个指标的解释说明。
1.建表语句
9.3.3 用户行为漏斗分析
该需求要求统计一个完整的购物流程各个阶段的人数。
1.建表语句
9.3.4 用户留存率
留存分析一般包含新增留存和活跃留存分析。
新增留存分析是分析某天的新增用户中,有多少人有后续的活跃行为。活跃留存分析是分析某天的活跃用户中,有多少人有后续的活跃行为。
留存分析是衡量产品对用户价值高低的重要指标。
此处要求统计新增留存率,新增留存率具体是指留存用户数与新增用户数的比值,例如2020-06-14新增100个用户,1日之后(2020-06-15)这100人中有80个人活跃了,那2020-06-14的1日留存数则为80,2020-06-14的1日留存率则为80%。
1.建表语句
9.5.1 订单统计
该需求包含订单总数,订单总金额和下单总人数。
1.建表语句
9.5.2 各地区订单统计
该需求包含各省份订单总数和订单总金额。
1.建表语句
到此这篇spring百度云(spring 网盘)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/63865.html