- 简介
- 目录大纲
- 最新文档
[H]python大数据技术之Canal
### 0-canal简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。 官网:ht……
剑指云原生 - 2023年12月15日 08:58
[H]python大数据技术之ClickHouse
# 1-ClickHouse 入门 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。 https://clickhouse.com/docs/en/home/ 官方数据生成 ``` #1.下载SSBM工具 git clone https://……
剑指云原生 - 2023年3月29日 09:34
[H]python大数据技术之Kettle
# 1-Kettle概述 ## 1.1-ETL简介 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。 市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等。 ## 1.2-Kettle简介 Kettle是一……
剑指云原生 - 2023年3月7日 19:40
[H]python大数据技术之Maxwell
# 1-简介 Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。 官网地址:http://maxwells-daemon.io/ ……
剑指云原生 - 2023年3月2日 15:18
[H]python大数据技术之Scala
# 1-部署Scala 下载地址:https://www.scala-lang.org/download/2.12.16.html ``` tar xf scala-2.12.16.tgz mv scala-2.12.16 /opt/server/scala ``` 添加环境变量 ``` cat <<'OEF'>> /etc/profile.d/ksenv.sh export SCALA_HO……
剑指云原生 - 2023年3月2日 11:28
[H]python大数据技术之Hadoop数据仓库Hive
# 1-编译Hadoop3.3.0(基于docker) ``` docker run -it --name hadoop-build -v /opt/hadoop:/opt/hadoop registry.cn-hangzhou.aliyuncs.com/samu/hadoop-build #忽略node版本兼容 yarn config set ignore-engines true cd /……
剑指云原生 - 2023年3月2日 11:28
[H]python大数据技术之在线教育数仓项目实践
# 1-项目介绍和需求管理 ## 1.1-项目简介 知行教育大数据分析平台,突出的是“真”,此项目是传智播客联合三方K12教育机构共同研发,并在上线发布后转换为课程,过程真实细致,采用主流的大数据技术和工具,内容特点: + 1.包含了需求分析、设计转换、研发、测试到上线部署维护的完整项目流程。 + 2.真实的教育大数据业务逻辑,包括:访问、咨询、意向、线索、报名、考勤等各个阶段,大幅提升学员在教……
剑指云原生 - 2023年3月2日 11:27
[H]python大数据技术之DolphinScheduler
# 1-DolphinScheduler简介 ## 1.1-DolphinScheduler概述 Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 + https://dolphinscheduler.apache.org/ ![](/media//202212/……
剑指云原生 - 2023年2月16日 15:27
[H]python大数据技术之PySpark3
# 1-Spark基础 ## 1.1-Spark是什么 ![](/media//202301/2023-01-03_094316.png) Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 ![](/media//202301/2023-01-03_094747.png) Spark 借鉴了 MapReduce 思想发展而来……
剑指云原生 - 2023年1月10日 17:24
[H]python大数据技术之DataX
# 1-datax简介 DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高……
剑指云原生 - 2022年12月6日 17:25
[H]python大数据技术之Mysql
# 1-mysql安装 + docker方式部署mysql5.7 具体部署方式 https://www.ad7.cn/project-19/doc-478/ + sql的介绍 ![](/media//202202/2022-02-14_133740.png) # 2-DDL操作数据库、表 ## 2.1-DDL数据库的查询、创建 ``` -- 查询所有数据库 show databases; -……
剑指云原生 - 2022年12月6日 17:25