PY大数据


创建人: 剑指云原生      创建于:2021年9月2日 09:11

  • 简介
  • 目录大纲
  • 最新文档

    [H]python大数据技术之Canal

    ### 0-canal简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。 官网:ht……

    剑指云原生 - 2023年12月15日 08:58


    [H]python大数据技术之ClickHouse

    # 1-ClickHouse 入门 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。 https://clickhouse.com/docs/en/home/ 官方数据生成 ``` #1.下载SSBM工具 git clone https://……

    剑指云原生 - 2023年3月29日 09:34


    [H]python大数据技术之Kettle

    # 1-Kettle概述 ## 1.1-ETL简介 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。 市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等。 ## 1.2-Kettle简介 Kettle是一……

    剑指云原生 - 2023年3月7日 19:40


    [H]python大数据技术之Maxwell

    # 1-简介 Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。 官网地址:http://maxwells-daemon.io/ ……

    剑指云原生 - 2023年3月2日 15:18


    [H]python大数据技术之Scala

    # 1-部署Scala 下载地址:https://www.scala-lang.org/download/2.12.16.html ``` tar xf scala-2.12.16.tgz mv scala-2.12.16 /opt/server/scala ``` 添加环境变量 ``` cat <<'OEF'>> /etc/profile.d/ksenv.sh export SCALA_HO……

    剑指云原生 - 2023年3月2日 11:28


    [H]python大数据技术之Hadoop数据仓库Hive

    # 1-编译Hadoop3.3.0(基于docker) ``` docker run -it --name hadoop-build -v /opt/hadoop:/opt/hadoop registry.cn-hangzhou.aliyuncs.com/samu/hadoop-build #忽略node版本兼容 yarn config set ignore-engines true cd /……

    剑指云原生 - 2023年3月2日 11:28


    [H]python大数据技术之在线教育数仓项目实践

    # 1-项目介绍和需求管理 ## 1.1-项目简介 知行教育大数据分析平台,突出的是“真”,此项目是传智播客联合三方K12教育机构共同研发,并在上线发布后转换为课程,过程真实细致,采用主流的大数据技术和工具,内容特点: + 1.包含了需求分析、设计转换、研发、测试到上线部署维护的完整项目流程。 + 2.真实的教育大数据业务逻辑,包括:访问、咨询、意向、线索、报名、考勤等各个阶段,大幅提升学员在教……

    剑指云原生 - 2023年3月2日 11:27


    [H]python大数据技术之DolphinScheduler

    # 1-DolphinScheduler简介 ## 1.1-DolphinScheduler概述 Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 + https://dolphinscheduler.apache.org/ ![](/media//202212/……

    剑指云原生 - 2023年2月16日 15:27


    [H]python大数据技术之PySpark3

    # 1-Spark基础 ## 1.1-Spark是什么 ![](/media//202301/2023-01-03_094316.png) Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 ![](/media//202301/2023-01-03_094747.png) Spark 借鉴了 MapReduce 思想发展而来……

    剑指云原生 - 2023年1月10日 17:24


    [H]python大数据技术之DataX

    # 1-datax简介 DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高……

    剑指云原生 - 2022年12月6日 17:25


    [H]python大数据技术之Mysql

    # 1-mysql安装 + docker方式部署mysql5.7 具体部署方式 https://www.ad7.cn/project-19/doc-478/ + sql的介绍 ![](/media//202202/2022-02-14_133740.png) # 2-DDL操作数据库、表 ## 2.1-DDL数据库的查询、创建 ``` -- 查询所有数据库 show databases; -……

    剑指云原生 - 2022年12月6日 17:25