大数据


创建人: 剑指云原生      创建于:2021年9月2日 09:08

  • 简介
  • 目录大纲
  • 最新文档

    大数据技术之Kerberos高可用

    官网: + https://www.kerberos.org/ ### 0-概念 #### 0.1-应用场景 ``` Kerberos采用客户端/服务器(CS)结构与DES加密技术,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证,是一种应用对称密钥体制进行密钥管理的系统。可以用于防止窃听、防止replay攻击、保护数据完整性等场合。 ``` #### 0.2-核心概念 ``` K……

    剑指云原生 - 2024年4月12日 15:39


    大数据技术之电商离线数仓Cloudera Hadoop(CM 6.3.1+CDH 6.3.2环境部署

    离线仓库文档 [【附件】CDH版-离线数仓.zip](/media/attachment/2022/10/CDH版-离线数仓.zip) # 1-概述 在众多 Hadoop 版本中, CDH(Cloudera Hadoop) 是 Hadoop 众多分支中比较出色的版本, 它由Cloudera 发行和维护。CDH 基于 Apache 的 Hadoop 进行重新构建,提供了基于 Web 页面的群集部署……

    剑指云原生 - 2023年2月8日 14:49


    大数据技术之Hadoop【入门】

    # 1-大数据概论 |功能分类 |组件| |---|---| |系统平台 |Hadoop、CDH、HDP| |监控管理 |CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle| |文件系统 |HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio| |资源调度 |YARN、Mesos| |协调框架 |ZooKeeper ……

    剑指云原生 - 2023年1月11日 09:19


    电商数据仓库系统

    # 1-数仓分层 ## 1.1-为什么要分层 ![](/media//202207/2022-07-18_172621.png) ## 1.2-数据集市与数据仓库概念 ![](/media//202207/2022-07-18_172702.png) ## 1.3-数仓命名规范 ### 1.3.1-表命名 ``` ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命……

    剑指云原生 - 2022年8月5日 21:46


    业务数据采集平台

    # 1-电商业务简介 ## 1.1-电商业务流程 ![](/media//202207/2022-07-18_142016.png) ## 1.2-电商常识(SKU、SPU) + SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 + SPU(Standard Product Unit):是商品信息聚合的最小单位,……

    剑指云原生 - 2022年7月19日 11:25


    大数据技术之框架小结

    # Hadoop ## 1、入门 1)常用端口有哪些?(HR ) hadoop3.x 9870 8088 19888 8020 50010 hadoop2.x 50070 2)安装hadoop需要配置哪些文件?4组成 core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers(slaves) ##……

    剑指云原生 - 2022年7月18日 15:52


    用户行为数据采集平台

    # 1-数据仓库概念 ![](/media//202207/2022-07-13_151104.png) # 2-项目需求及架构设计 ## 2.1-项目需求分析 ![](/media//202207/2022-07-13_151300.png) ## 2.2-项目框架 ### 2.2.1-技术选型 ![](/media//202207/2022-07-13_151433.png) ### 2.2.……

    剑指云原生 - 2022年7月18日 14:18


    大数据技术之离线数仓项目

    剑指云原生 - 2022年7月13日 14:19


    大数据技术之Hadoop【HDFS】

    # 1-HDFS概述 ## 1.1-HDFS产出背景及定义 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树……

    剑指云原生 - 2022年7月7日 13:48


    大数据技术之Azkaban

    # 1-概述 + https://azkaban.github.io/ ![](/media//202207/2022-07-06_211950.png) Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关……

    剑指云原生 - 2022年7月7日 10:41


    大数据技术之Hbase

    # 1-HBase简介 ## 1.1-HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 + https://hbase.apache.org/ ![](/media//202207/2022-07-03_220042.png) ## 1.2-HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层……

    剑指云原生 - 2022年7月6日 18:59


    大数据技术之Hive

    # 1-Hive基本概念 + http://hive.apache.org/ ![](/media//202206/2022-06-29_180929.png) ## 1.1-什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成Map……

    剑指云原生 - 2022年7月6日 15:02