海牛大数据培训学校
欢迎来到海牛大数据,我们为培养专业大数据人才而生 全国咨询热线:400-608-1886
海牛大数据实战课程8.0版


JavaSE Java编程环境搭建 程序相关概念、Java语言发展史、Java编程语言主要特征、Java技术体系平台、Java核心机制、Java程序设计环境--下载与安装JDK、DOS常用命令、环境变量的配置、JVM工作原理、Java Code Style、输出语句基本用法、转义序列、进制转换、注释
数据类型(上)、数据类型(下) 声明变量、变量命名规则及规范、变量的运算与底层运算原理、数据类型、计算机中的机器码、类型转换、运算符及运算符的优先级、控制台输入Scanner类
流程控制语句:分支语句 流程控制语句流程图 、Java编译器执行流程、分支语句(if单分支语句、if双分支语句、多分支if语句 、switch分支语句及分支嵌套的相关规则)
流程控制语句:循环结构 循环结构 (while循环、do-while循环、for循环)、各语句性能对比与应用场景、特殊流程控制语句、死循环、操作循环关键字、循环标签、循环嵌套
数组(一) 声明创建数组、一维数组初始化及内存分析图、数组遍历(基本遍历、增强for遍历)Eclipse的介绍使用与调试、数组相关操作、数组的常见算法分析
数组 (二) 排序之冒泡排序、选择排序 数组操作 :数组的最值问题、二分查找法、数组复制、Arrays工具类、二维数组初始化、遍历方式及相关操作、多维数组及不规则数组
面向对象 面向对象的基本概念、类和对象的关系、类和对象的创建、对象的属性和方法、Java的内存管理与垃圾回收、面向对象的三大特性、对象的关联关系、this关键字
方法 方法概述、方法的声明及使用、方法调用的过程分析、方法分类、成员变量与局部变量、带参方法定义及应用、跨类调用方法、方法参数传递问题、引用参数使用、数组参数与方法可变参数、命令行传参、方法重载
算法:穷举法,贪心算法,贪婪算法,分治法,动态规划法,迭代法
重载和构造 面向对象三大特性之封装详解、构造方法Constructor分类及特性、构造块、递归Recursion
访问权限 this关键字应用、程序包package的管理及使用、Java访问修饰符、static静态修饰符、静态方法、静态代码块与非静态代码块、静态变量初始化、类的成员之代码块、局部代码块、静态导入、
单例设计模式、继承 单例Singleton模式、继承概述、方法重写、super关键字、继承传递性、java.lang.Math类、java.util.Random类、java.lang.Object类java.math.BigInteger类及方法源码分析
抽象类和接口 final关键字、常量、设计可以被继承的类 、抽象类(abstract)实际应用举例、接口(interface)应用、Java8核心函数接口、多态概述、类多态、接口多态、参数多态、instanceof关键字、对象类型的转换、UML类图
API (一) API String类的使用与内存原理、 API StringBuffer 、API Stringbuilder 常用方法及源码分析、字符串处理类的性能分析、Annotation注解、JDK内置注解、自定义注解、元注解
API(二) Wrapper包装类常用方法、自动装箱/拆箱、包装类的缓存分析、常用类:java.util.Date类及子类、java.sql.Time类、java.sql.Timestamp类、java.util.Calendar类、java.text.DateFormat类及子类、java.text.NumberFormat类、java.text.DecimalFormat类常用方法、正则表达式Regex Expression、查找与匹配
内部类、异常 实例成员内部类、静态内部类、局部内部类、匿名内部类、函数式接口、Lambda表达式的参数传递、异常原理、异常结构体系、异常分类(受检异常与未受检异常)及处理方式(throws、try-ctach格式) 、方法重写与throws、try-catch 示例、使用finally回收资源、throw制造异常、自定义异常、实战中自定义异常的应用解析、异常信息的访问、Java程序的常见问题及解决问题
泛型与比较器 泛型详解、自定义泛型、类型推断、泛型通配符、泛型接口、比较器java.lang.Comparable与java.util.Comparator、java.lang.Enum枚举类、枚举的属性和方法
Java集合 集合框架概述、Collection系列集合、List系列集合、Set系列集合、java.util.ArrayList源码分析、java.util.LinkedList源码分析、java.util.HashSet内部原理、java.util.TreeSet数据结构分析、强大的Stream流 API 、Stream流操作的核心步骤、方法引用与构造器引用、java.util.Queue、java.util.Map 集合系列与数据结构、Map集合新特性、Iterator与ListIterator、java.util.Collections工具类的基本操作及源码分析、集合中使用泛型、链表、哈希表、树结构、队列结构、Optional容器类
Java文件与流 File类常用方法及操作、函数式接口FileNameFilter与FileFilter、IO流结构体系、IO流原理分析、IO流分类、IO流中常用类的操作(字节流、字符流、文件流、包装流、缓冲流、数据流、对象流、)对象的序列化与反序列化、自动资源释放、控制台IO、标准输入流与标准输出流、打印流、字符编码与解码、RandomAccessFile类、并行流与串行流
Java多线程 线程与进程、线程的原理、线程五种状态及声明周期、线程常用操作及方法、创建线程三种方式及对比、线程的控制与调度、线程优先级、线程的生命周期、多线程的安全问题与解决办法、线程同步synchronized锁相关语法、java.util.concurrent.locks.Lock接口及ReentrantLock锁、多线程下单例模式、互斥锁与线程死锁问题、Object类wait/notify方法、生产消费模式、守护线程
Java网络编程和反射 计算机网络基础知识、网络通信协议(TCP/IP协议、UDP协议)、IP地址、java.net.InetAddress类、域名、端口、URL类、数据传输与Socket网络编程、数据的封装与拆封、如何实现网络中主机的相互通讯、OSI参考模型、线程通信、针对HTTP协议的URLConnection、java反射机制的研究与相关应用、反射原理分析、JVM与类、类的加载、连接、初始化、类初始化的时机、类加载器Classloader简介、类加载机制、创建并使用自定义的类加载器、开启反射源头Class、获取Clss实例的方式、从Class中获取信息、Proxy和InvocationHandler、动态代理和AOP、泛型和Class类、使用反射来获取泛型信息、代理Proxy模式、装饰者模式、简单工厂SimpleFactory模式
数据结构 数据结构、数据结构的基本功能、 添加数据 、修改数据 、删除数据 、查询数据 、升序排序、降序排序、二分查找法、复制数组、入栈、特点、入队、出队、获得队列数据、特点、单向循环链表、双向非循环链表、双向循环链表、添加Node、修改Node、删除Node、遍历Node、树、根节点、孩子节点、双亲节点、兄弟节点、节点的度、树的度、枝节点、叶子节点、有序树、无序树、创建树 、销毁树、构造树、获取结点、数据赋值、获得双亲、获得最左孩子、获得右兄弟、插入子树、删除子树、遍历树、前序遍历、中序遍历、后续遍历、添加节点、删除节点、存储、删除数据、优化存储、数据存储
算法 算法的设计原则、插入排序算法、冒泡排序算法、选择排序算法、快速排序算法、归并排序算法、二分查找算法、递归算法、递推算法、穷举算法、贪心算法、贪婪算法、分治算法、动态规则算法、迭代算法、有限确定性算法、有限非确定性算法、无限算法
MySQL MySQL数据库基础 数据存储发展史,数据库起源:数据存储发展史,数据库起源,主流数据库服务器介绍;
MySQL数据库:MySQL概述,MySQL优点,Linux下安装调试MySQL,MySQL运行原理及内存结构,MySQL数据类型,MySQLDDL语句的使用;
SQL语言简介:SQL语言概述,SQL语言的使用环境,SQL与T-SQL;
SQL语句操作基础:DML语句简介,DML语句使用,SQL事务简介,SQL事务特性,SQL事务使用;
SQL语句操作进阶:SQL查询机制简介,SQL查询基础,SQL技巧,SQL查询优化;
MySQL数据库高级 数据库设计:E-R图简介,使用绘图工具绘制E-R图,数据库设计范式简介,数据库设计范式应用;
MySQL基础编程:MySQL数据库引擎分类,MySQL事务,MySQL表,MySQL数据类型,MySQL视图;
MySQL高级编程:MySQL索引,MySQL分页,SQL语句优化技巧;
MySQL存储过程:存储过程概述,MySQL存储过程的用法,存储过程调试与调用,存储过程使用总结;
JDBC JDBC概述,JDBC工作原理,JDBC API,JDBC访问数据库;
JDBC常用接口:Connection接口,Statement接口和ResultSet接口,PreparedStatement接口;
数据库连接池 Java多线程开发:多线程概述,多线程与单线程比较,多线程应用,多线程使用注意事项(线程共享,线程死锁等);
数据库连接池技术:数据库连接池概述,C3P0,DBCP,druid,等数据库连接池技术使用;
linux 在虚拟机中安装Centos7.0 安装虚拟机、Centos7.0 linux系统、安装SecureCRT
Linux 简介及权限概述 linux简介、特点、发行版本、linux组成、用户与用户组的概念、linux文档属性
Shell 基本命令 查看目录和文件、find命令、查找特定命令、用户及版本信息查看、帮助命令
文档目录管理 linux目录结构,建立文件目录,文档的移动、复制、删除,改变文档所有权,改变文档权限,建立链接,输入输出重定向和管道
用户与用户组管理 linux的账号与群组,账号管理,群组管理,用户间切换
进程管理 进程调用过程及状态,查看进程,实时监控进程,kill进程
软件管理 修改yum源,安装JDK,安装mysql,从eclipse生成jar包,在linux执行
shell编程 vim编辑器,变量和运算符,数组,分支语句,循环语句
网络管理和多机操作 配置网络,网络常用命令,ssh免密登录,编写shell多机操作脚本,用于操作多台机器
hadoop hadoop概述 hadoop基础讲解、大数据的4V特点、hadoop的历史起源、hadoop核心组件、hadoop的框架演变、hadoop生态圈、hadoop典型应用
hadoop服务器基础环境 企业级集群规划、集群服务器的jdk安装、服务器环境变量设置、网络配置、主机名设置、防火墙设置、selinux设置、ssh信任配置、yum源修改、服务器常用软件安装、添加hadoop用户、多机操作脚本编写、服务器ssh信任配置、root用户免密切换
zookeeper安装与使用 zookeeper介绍、zookeeper主要角色、zookeeper数据模型、zookeeper主要特点、zookeeper应用场景、zookeeper安装、zookeepr配置讲解、zookeeper集群启动、zookeeper常用命令、zookeeper客户端使用、zookeeper的javar操作
hadoop伪分布式环境 hadoop伪分布式原理、winutils的使用、windows的hadoop环境配置、hadoop伪分布式配置讲解、hadoop伪分布式启动、hadoop伪分布式使用
hadoop安装 hadoop版本对比、hadoop源码包下载、linux的Maven安装、linux的Maven配置、hadoop的源码编译、hadoop本地库支持、hadoop安装规划、hadoop企业级配置精讲、hdfs安装、yarn安装、使用Ambari快速安装集群、使用CDH快速安装集群
hdfs分布式文件系统 hdfs的高可用原理、企业级hdfs的配置、journalnode原理、zkfc原理、hdfs的初始化、namenode原理、namenode主备切换、datanode原理、HA集群的启动与关闭、hdfs的特点、hdfs的系统结构、数据块、hdfs写入原理、hdfs读取原理、hdfs的shell命令、hdfs的java操作、hdfs的管理工具使用、configuration配置文件加载机制源码分析
yarn资源管理器 yarn的特点、yarn的系统结构、企业级yarn配置、yarn集群的启动、yarn的HA、yarn集群的维护、yarn的任务调度器、yarn资源分配方法、resourcemanager原理、nodemanager原理、yarn提交任务过程分析、yarn集群任务运行
mapreducer分布式计算系统 分布式计算原理、mapreducer应用场景、mapreducer的split原理、mapreducer的suffle详解、mapper的输出流程、reducer的输入流程、partition的使用、mapreducer1与mapreducer2的区别、企业级mapreducer配置讲解、counter的原理与使用、combiner的原理与使用、distributecache的原理与使用、mapreducer的优化配置、mapreducer的windows开发环境搭建、任务配置文件加载机制、configuration原码分析、mapreducer的文件压缩、mapreducer编程wordcount、mapreducer编程排重、mapreducer编程最值计算、mapreducer编程自定义序列化类、mapreducer编程多目录输入输出、mapreducer编程局部排序、mapreducer编程全局排序、mapreducer编程二次排序、mapreducer编程任务工作链、mapreducer生成orc文件、mapreducer生成avro文件、mapreducer通用工具封装、mapreducer生产项目jar包生成方法、mapreducer任务企业级集群运行方法、mapreducer数据倾斜解决、mapreducer执行过程源码分析
hive hive介绍与安装 hive介绍、hive的优缺点、hive与关系数据库的区别、hive服务端组件driver、hive服务端组件metastore原理与使用、hive服务端组件thrift服务原理与使用、hive客户端组件CLI原理与使用、hive客户端组件JDBC/ODBC原理与使用、hive查询过程分析、hive的mysql元数据分析、hive安装、hive集群环境配置、hive的元数据库多种连接方法
hive数据类型与基础语法 hive的数据组织、hive的基本类型、hive的复杂类型、hive的关系运算符、hive的算数运算符、hive的逻辑运算符、hive的复杂运算符、聚合函数、hive的索引机制、hive的数据库操作
hive表操作 hive表操作基础语法、内部表原理、外部表原理、bucket表的使用、根据查询结果建表、复制表、删除表、修改表、增加表分区、删除分区、修改表分区、增加hive表字段、视图操作、hive表数据select加载、hive表数据load加载、动态分区、hive表单目录导出、hive表多目录导出
hive大数据查询 hive的avro格式、hive的orc格式、orc文件索引原理、抽样查询、左连接查询、右连接查询、内连接查询、全连接查询、hive非等值问题、union的使用、map端join、多维度统计查询、查询中使用条件判断、hive数据倾斜解决
hive排序 hive的局部排序原理、hive的全局排序原理、hive的order by、hive的sort by、hive的distribute by、hive的cluster by、hive的partition by、hive的桶表排序
hive函数 条件函数、字符串操作函数、日期函数、类型转换函数、符合类型函数、聚合函数、排序函数、分片函数、归一化原理、归一化函数、窗口函数、窗口函数行选择器、hive的windows开发环境搭建、row_number原理及应用场景、自定义UDF编写、自定义UDAF编写、自定义UDTF编写
hbase hbase概述 分布式数据库特点、列式存储特点、nosql数据库与关系数据库区别、hbase各组件介绍
hbase安装 hbase集群模式安装、hbase的yarn模式安装、hbase的环境变量配置、hbase的企业级集群配置、hbase的集群启动、hbase的web UI讲解
hbase原理 hbase数据单元、hbase的数据纬度、hbase物理存储结构、hbase的整体架构、hbase主要组件、hbase读写过程、hbase的regionserver、hbase的split策略、hbase的数据结构、B+树与LSM树区别、hbase的rowkey设计
hbase的shell操作 create语句、put语句、get语句、count语句、delete语句、deleteall语句、disable语句、scan语句、list语句、describe语句、alter语句、drop语句、exists语句、is_enabled语句、incr语句、get_counter语句、truncate语句
hbase的java操作 hbase的windows开发环境搭建、hbase创建连接、hbase创建表、hbase单行插入、hbase多行插入、hbase单行查询、hbase指量查询、hbase删除行、hbase删除列、hbase删除列簇、hbase删除表
hbase的filter操作 基础过滤器、正则比较器、字符串比较器、组合比较器、分页过滤器、自定义比较器
hbase的高级 hfile文件原理、mapreducer生成hfile、hfile文件指量导入、hbase预分region、自定义split方法、hbase的mapreducer批量导出、mapreducer读出hive文件、hive数据仓储导入hbase、hbase数据导入hive数据仓储、yarn集群的hbase运行环境调优、hbase的读写缓存使用、hbase的集群模式运行
CDP 大数据平台概述 主流大数据平台介绍(CDH、CDP、TDH、FI HD、FI MRS、飞天)、各平台亮点介绍、各平台性能对比
cdp大数据平台搭建 yum源配置、selinux配置、iptables配置、内存透明大页设置、配置ntp同步、mariadb部署、元数据库初始化、httpd服务部署、cm服务部署、hdfs高可用配置、yarn高可用配置、kudu部署配置、ranger功能开启
cdp大数据平台安全认证与多租户设计 kerberos原理及安装部署、ldap原理及安装集成、ranger服务集成、多租户设计原理、cdp平台设计多租户、ranger权限管理
数据仓库理论 数据仓库理论 数据仓库由来、数据仓库发展历程、数据仓库应用领域、数据仓库发展前景
数据仓库各领域应用 电商行业应用讲解、金融行业应用讲解、通信行业应用讲解、医疗行业应用讲解、物联网应用讲解
数据仓库分层设计 缓冲层、贴源层、主题层、汇总层、集市层划分策略、每层数据存放策略、数据生命周期、数据血缘管理、数据质量把控、入仓标准、检核策略
数据仓库模型设计 主题层与汇总层模型设计策略、主题划分策略、模型摆放方式、弱范式化与逆范式化结合使用
数据仓库存储策略 流水表、快照表、拉链表设计及应用场景
Phoenix Phoenix原理 Phoenix适用场景、Phoenix与hbase如何结合使用、Phoenix查询原理、Phoenix特点、JDBC驱动嵌入讲解、多谓词查询、DDL与DML支持、事务支持、Phoenix优缺点
Phoenix集成 Phoenix安装配置、Phoenix与HBase集成
Phoenix操作Hbase实操 通过Phoenix 命令行使用SQL操作hbase数据、通过jdbc链接查询hbase数据、模糊查询
ELK lily+solr原理 lily hbase indexer原理、lily hbase indexer架构、lily hbase indexer实现solr二级索引创建、solr二级索引原理、批量与准实时建立hbase数据solr索引
Solr二级索引实操 solr中建立collection、修改morphline配置文件、配置lily indexer文件、启动morphline任务、批量建立全文索引、solr webui使用、hue中使用solr
ES原理 es适用场景、分布式搜索引擎、es存储原理、分词器、倒排索引原理、es核心概念、工作机制、应用场景、node、index、replication、doc、rest api、search api、mapping
ES部署 部署单机elasticsearch、部署集群版elasticsearch、header、kibana
Kibana使用 通过kibana操作es数据、组合查询、条件查询、精准查询、模糊查询、范围查询、SQL方式查询
ES常用操作练习 创建索引、管理索引、管理副本、管理分片、设置 mapping、search、ranger、match、must、must not、should、filter、query、路由索引
ES-Hadoop实操 通过es-hadoop同步hdfs数据到es、通过es-hadoop导出es数据到hdfs
ES API实操 java连接es server、java创建索引、java创建mapping、java创建文档、java查询es数据、java修改es数据、java删除es数据、java写入数据到es、json document构建方式
impala Impala原理 impala系统架构、impalad功能及工作原理、statestore功能及工作原理、coordinator功能及工作原理、impala查询原理及查询执行过程、impala与hive的异同点
数据类型 impala的基本数据类型、impala的复杂类型、impala时间类型、impala的关系运算符、impala的算数运算符、impala的逻辑运算符、impala的复杂运算符、impala与hive数据类型映射关系、impala与mysql数据类型映射关系
存储类型 存储格式介绍、各种存储格式及压缩方式对比、parquet数据格式原理
常用函数实操 条件函数、字符串操作函数、日期函数、类型转换函数、符合类型函数、聚合函数、排序函数、分片函数、归一化原理、归一化函数、窗口函数、自定义udf函数
性能调优实操 文件格式选择策略、小文件优化策略、impala资源配比优化、impala溢写、explain调优讲解、impala profile优调、分区优化、分桶优化、元数据自动刷新配置及优化
操作hbase实操 使用Impala查询Hbase数据
kudu kudu原理 kudu设计原理、kudu适用场景、kudu架构、tablet分区策略、kudu副本机制、kudu存储原理、kudu底层数据模型、kudu读写流程、kudu与hbase区别、kudu数据刷新策略
kudu应用实操 kudu建表、kudu写入数据、kudu查询数据、kudu upsert、kudu随机读写场景应用练习、读写性能对比测试、java api操作不同数据刷新策略
kylin Kylin原理 kylin架构、kylin支持数据源、kylin核心模块、查询引擎、routing、元数据管理工具、存储引擎、任务引擎、kylin适用场景、kylin底层计算原理、预计算、kylin设计核心思想、多维分析原理、cube原理、cuboid原理、cube构建引擎介绍、预计算结果存储、对外暴露接口类型
OLAP概述 OLAP与OLTP的区别、OLAP联机分析处理概念、OLAP应用领域、适合OLAP需求的产品介绍
Kylin安装部署 基于Hadoop集群部署kylin、任务引擎高可用部署、任务调度配置、负载均衡器安装、读写分离部署、cube级别配置重写、重写MapReduce参数、重写hive参数、重写spark参数、metastore配置、配置jdbc数据源
Cube设计 样例cube快速入门、cube创建、cube大小预估、cube构建算法、自动合并、维表快照、启用压缩、hbase存储配置、cube迁移、查询下压、cube planner、cube优化
预计算实操 对接hive数据源设计维度计算,实现OLAP需求、restful api练习、通过api构建cube、备份元数据、使用cli工具、使用hive构建全局字典
对接报表系统实操 通过jdbc对接报表系统
flume Flume原理 flume框架介绍、flume概念、event概念、flume的运行机制 、flume的广义用法 、Flume Source讲解、Flume Channel讲解、Flume Sink讲解、flume数据简单清洗
Flume应用实操 流配置、单一代理、多代理说明、flume selector相关配置、flume的NetCat源、flume的Spooling Directory源、flume的Exec源、flume的Avro源、flume日志采集、flume与nginx结合、flume与tomcat结合、flume脚本编写、nginx服务器、access日志、web服务日志切割、web服务日志HDFS集群存储
sqoop Sqoop原理 sqoop原理、sqoop适用场景、split-by参数配置、num-mappers配置、驱动包管理、设置input、设置output、设置map、设置task number、sqoop工作流程
Sqoop抽取练习 sqoop操作mysql库表、复制关系型数据库的表结构到hive、导入关系型数据库数据到hive、导出hive数据到mysql、关系型数据库数据导入hdfs、增量抽取数据到hdfs
airflow+kettle airflow调度原理 调度系统应用场景、常用调度系统介绍、airflow原理、DAG概念、元数据库原理、调度器原理、执行器原理、任务触发机制、时间依赖、任务依赖、airflow webui解析
airflow Job配置实操 新建作业、作业提交、失败重试、重跑机制、断点执行
kettle原理 常见etl工具介绍与性能对比、kettle原理、kettle组件特性
kettle实操 kettle数据转换实操
HUAWEI GaussDB 200 GaussDB原理 MPP数据库定义、国产化数据库兴起及行业热度、GaussDB关键技术、并行bulkload原理、GaussDB高可靠实现原理、GaussDB高扩展性能原理、计算弹性共享原理、SQL on Anywhere原理、GaussDB与其他MPP数据库性能对比、GaussDB与hadoop的对比、GaussDB体系架构原理、排序、聚合、关联在分布式下的实现原理、MPP架构数据库在OLAP领域应用、GaussDB数据分布原理、GaussDB无master架构原理、GaussDB coordinator工作原理、DataNode工作原理、operator management工作原理、cluster management工作原理、global transaction management工作原理、workload management工作原理、GaussDB逻辑架构、GaussDB物理架构、集群逻辑部署、服务组件进程介绍、GaussDB技术指标、GaussDB数据字典、GaussDB行存储、列存储、混合存储、行存储与列存储适用场景、GaussDB数据分布策略、GaussDB分布键原理、GaussDB分布键设计策略、GaussDB复制表与分布表原理、GaussDB分区表原理、GaussDB索引原理、GaussDB分区剪枝原理、GaussDB数据迁移方式、GDS原理、copy from/to、gs_dump/gs_restore、GaussDB Roach容灾原理、GaussDB分布式执行计划原理
GaussDB数据类型 数值类型、货币类型、布尔类型、字符类型、二进制类型、日期/时间类型、几何类型、网络地址类型、UUID类型、JSON类型、HLL数据类型、列存表支持的数据类型
gsql客户端 gsql功能概述、常用参数、输入和输出参数、输出格式参数、连接参数、元命令
GaussDB函数和操作符 逻辑操作符、比较操作符、字符处理函数和操作符、二进制字符串函数和操作符、数字操作函数和操作符、时间/日期处理函数和操作符、类型转换函数、几何函数和操作符、网络地址函数和操作符、UUID函数、JSON函数、HLL函数和操作符、数组函数和操作符、范围函数和操作符、聚合函数、窗口函数、条件表达式函数
GaussDB存储过程 声明语法、基本语句、动态语句、控制语句、存储过程调用方式
GaussDB应用实操 GaussDB 200安装部署、DDL语法实操、DML语法实操、DCL语法实操、GaussDB数据导入与导出实操、行/列存实操、分布键设计、复制表/分布表实操、存储过程实操、GaussDB调优实操
Scala scala理念与生态 大数据之scala生态、scala与JVM的关系、scala与java的对比、scala与python的对比、scala的装饰模式、scala的门面模式、scala的函数式编程介绍、scala的函数式编程优点、scala的面向对象编程与函数式编程结合 webui解析
scala开发环境安装 windows的scala安装、linux的scala安装、scala的开发工具idea的安装与使用、使用maven管理scala、scala的SDK开发配置
scala基础语法 val变量、var变量、scala语法的逻辑行、scala的值类型、if语句、else if语句、混合类型表达式、for语句、to方法、until方法、高级for嵌套、yield关键字、数值操作、字符器操作、scala的方法、scala的函数、方法转换函数、数组、变长数组、定长数组、数组操作、映射、可变映射、不可变映射、映射操作、数组转换成映射、拉链操作、元组、元组操作、元组组合赋值、集合、list、listBuffer、set、HashSet、map、hashMap、集合之map方法、集合之filter方法、集合之sorted方法、集合之reverse方法、集合之grouped方法、集合之flatten方法、集合之flatMap方法、集合之par方法、集合之reduce方法、集合之reduceLeft方法、集合之reduceRight方法、集合之fold方法、集合之foldLeft方法、集合之flodRight方法、集合之aggregate方法、集合之union方法、集合之intersect方法、集合之diff方法、eq与equals和sameElements的区别、lazy关键字、类、静态类、主构造器、辅助构造器、scala单例对象、scala伴生对象、apply方法、unapply方法、Option与Some对象、private关键字、特质、抽象类、重写、特质与抽象类区别、with关键字、extends关键字、模式匹配、match关键字、case关键字、字符串匹配、类型匹配、集合匹配、样例类匹配、偏函数匹配、泛型、UpperBound、LowerBound、ViewBound、ContextBound、逆变、协变
scala高级特性 高阶函数、柯里化、隐式转换、implicit关键字、隐式值、隐式函数、隐式类型、隐式转换与柯里化、隐式转换与泛型、Actor介绍、Actor与Java并发编程对比、Actor的start方法、Actor的act方法、异步消息发送、同步消息发送、scala版wordcount编程、Actor的wordcount编程、Akka介绍、Akka与Actor的关系、preStart方法、receive方法、Akka系统结构、使用Akka编写分布式通信模型
spark spark介绍 spark介绍、spark历史、spark适用场景、spark与hadoop对比、spark生态、spark应用场景、spark-shell介绍
rdd原理 RDD设计背景、RDD概念、RDD转换、RDD行为、RDD血缘关系、RDD高效容错性、RDD内存使用、RDD缓存数据、RDD依赖关系、宽依赖、窄依赖、宽依赖与窄依赖的区别、RDD的阶段划分、RDD缓存级别、RDD数据倾斜解决、RDD优化
spark常用Transformations算子 map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions
spark常用Actions算子 reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、countByKey、foreach
spark-core rdd常用操作、pairRdd常用操作、sparkconf配置对象、sparkcontext设置、spark-core的java版API、spark-core的scala版API、集合操作、cache函数、persist函数、unpersist函数、广播变量、累加器、spark编程wordCount、spark编程排序、spark编程二次排序、spark编程mapjoin、spark使用hadoop序列化方法、spark读写hive的ORC文件
spark-sql hive与spark-sql对比、配置spark-sql使用hive元数据库、spark-sql在yarn上运行driver、spart-sql在yarn上运行thriftserver、beeline与thriftserver通信、缓存表、spark-jdbc编程、spark-sql读写json文件、spark-sql自定义schema、spark-sql对象化schema、spark-sql读写hive的orc格式文件、spark-sql的标准sql支持、spark-sql的hive sql支持、spark-sql使用JDBC访问mysql、dataFrame使用、dataSet使用、spark-sql与常用rdd的转换
spark-hbase spark-hbase的java版API、spark-hbase的scala版API、spark写入hbase、spark批量写入hbase、spark中使用tableoutputformat多分区写入、spark的hadoopDataSet操作、spark批量读取hbase、spark使用filter过滤hbase数据、spark生成hbase的hfile文件、spark整合hbase的bulk load功能、spark-hbase集群运行调优
spark-streaming 流式计算的特点、spark-streaming的原理、spark-streaming的生态组件、storm与Spark Streming对比、spark-streaming的优缺点、spark-streaming的数据处理流程、spark-streaming的架构与抽象、spark-streaming的java版API、spark-streaming的scala版API、spark-streaming的DStream对象、DStream的Transformations操作、DStream的Output Operations操作、updateStateByKey原理与使用、DStream使用transform转换成RDD、windows函数原理、windows函数窗口间隔、windows滑动间隔、spark-streaming保存压缩文件、spark-streaming保存hive的ORC文件、spark-streaming数据导入到hbase、spark-streaming的socket模式、ncat工具的使用、spark-streaming的checkpoint原理、spark-streaming的文件模式、spark-streaming的kafka模式、spark-streaming编程在windows函数中使用updateStateByKey、spark-streaming编程使用历史数据中最新值、spark-streaming编程使用checkpoint恢复历史数据、spark-streaming编程spark-streaming-kafka cogroup spark-streaming-file
spark调优 内存:对象头内存、String内存、集合内存、虚拟机垃圾回收原理、虚拟机垃圾回收调优、虚拟机对象内存空间分配、垃圾回收检测、优化executor内存比例
序列化:Java序列化机制、Kryo序列化机制、优化Kryo类库缓存大小、注册自定义类型、禁用Kryo序列化引用
数据结构:数组代替集合、字符串代替集合、JSON代替对象
持久化:持久化级别、Checkpoint冗余
并行度:算子并行度设置、conf默认并行度设置、cpu core与task并行度比例
共享数据:共享数据优点、共享数据代替外部变量、使用共享数据替代shuffle
数据本地化:数据本地化性能影响、PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY、数据本地方调化方案
算子优化reduceByKey优点、shuffle排序的取舍、groupByKey.map使用场景、cogroup使用场景、join方案代替cogroup、combiner的使用
数据倾斜:spark-sql数据倾斜group场景、spark-sql数据倾斜join场景、倾斜数据的清洗、随机前缀多次聚合、倍数扩容与倍数冗余、mapjoin、数据倾斜shuffle取舍
shuffle:consolidate机制、reduce task的拉取缓存、map task的写磁盘缓存、失败重试次数、失败重试间隔、reduce端内存聚合比例、sortShuffleManager
streaming:DStream接收并行度调优、block接收并行度调优、task接收并行度调优、处理并行度调优、序列化调优、batch间隔调优、streaming算子调化、内存调优、streaming执行化方案选择、压缩机制
spark-streaming-kafka:直连模式并行度调优、kafka分区offerset管理、offerset丢失容灾机制
Kafka kafka概述/集群安装 kafka概述、kafka特性、kafka的consumer、kafka的producer、kafka的broker、kafka的topic、kfka的partition、kafka的体系结构、kakfa的分布式原理、kafka的消息生产原理、kafka的消息消费原理、kafka的消息消费顺序、kafka企业级配置讲解、kafka生产者配置、kafka消息者配置、kafka多节点集群安装
kafka的api操作 创建topic、查看topic详情、命令删除topic、手动删除topic、消费者启动、生产者启动、修改分区扩容、修改备份数量、kafka的java版api操作、kafka的scala版api操作
kafka调优 kafka集群规划、kafka的吞吐量优化、kafka的分区设置、kafka的副本设置、kafka读写缓冲区调优、broker的配置调优、kafka的topic多场景配置、kafka的集群扩充
Flink flink概述 flink介绍、Flink生态、Flink的发展与未来趋势、与Hadoop Spark Storm的对比、flink的反压机制、Flink的DataFlow原理、Flink的带状态编程、flink的barrier、flink的exactly-once机制、flink的内存管理、flink的排序机制、flink的分布式原理、flink的计算资源、flink的Graph原理、flink的Operator Chains、flink的Slot共享机制、TaskSlot、Task与subtask、parallelism、SlotSharingGroup、CoLocationGroup、flink的Connector
flink安装 elocal模式安装、Standalone模式安装、HA模式安装、yarn模式安装、TaskManger原理、JobManagers原理、Client原理、使用Flink集群运行WordCount、Flink Job的启动过程
flink窗口 统计Windows、滚动Window、滑动Window、事件Window、自定义Windows、事件Time、获取Time、处理Time、Operator State、Keyed State、原始状态和托管状态、State Backend
flink开发 Flink Scala/Java开发环境搭建、flink支持的数据类型、Processing Function、Operator基本算子介绍 、flink的流式计算、DataStream Api、flink的批量计算、DataSet Api、flink的checkpoint与savepoint、Evaluation、DataSource、Transformation Functions、Sink、Accumulators & Counters、broadcast、Connector、Window Join、Interval Join、异步IO、Side Outputs、分布式缓存、Table & SQL、Flink批处理容错机制、Flink与Kafka集成开发实战、Flink与HDFS集成开发实战、Flink与HBASE集成开发实战、Flink与Redis集成开发实战
Python python基础 python简介、python特色、脚本语言特点、python组件、python生态环境
python开发环境安装 windows的python安装、linux的python安装、python的软件管理工具pip、python开发工具pycharm
python语法 python的语法结构、python数据类型、python的字符串操作、python的编码处理、python的运算符、python的表达式、if语法、while语法、for语法、break语法、continue语法、python的函数、局陪变量、global作用、默认参数、关键参数、return语句、python的doc、python的模块、python的pyc文件、python的主方法、dir函数、help函数、列表list、元组tuple、字典dict、集合set、引用、深拷贝、浅拷贝、元组与字符串操作、python的类特性、python的对象、self作用、python的init方法、类变量与对象变量、python的继承、python的文件操作、python的对象持久化、python的异常处理、python的finally作用、python的sys模块、python的os模块、python的del方法、python的列表综合、python的可变参数、python的lambda表达式、python的exec函数、python的eval函数、python的assert语句、python的repr函数、python的线程
python组件 队列组件、beautifulsoup4组件、hdfs组件、phantomjs组件、mysql组件、lxml组件、boto组件、pykafka组件、selenium组件、six组件、tld组件、urllib3组件
python高级开发 python的日志封装、python的数据库封装、python的分布式框架编写、python的IO流封装、python的时间操作封装、python的http请求封装、python的通用工具封装
Redis redis概述 redis介绍、redis应用场景、redis数据类型、redis持久化机制、redis分片机制、redis容灾
redis单机模式 redis源码编译、redis单机配置、redis单机安装、redis主备复制方案、redis读写分离方案
redis集群模式 一致性hash原理、redis集群配置、redis集群安装
redis开发 读写操作、批量读写操作、复合数据类型操作、排序操作、单机模式游标分页机制、集群模式游标分页机制、redis集群连接池实现、python操作redis、java操作redis、scala操作redis
实训项目 CDP平台-CoolNiu商城数仓实践项目 项目前期准备:
架构设计:逻辑架构设计、技术架构设计、数据架构设计、开发规范文档讲解、调度设计
数据准备:业务日志、行为日志数据准备,实体表解析
项目实施:
数据抽取:抽取业务日志、行为日志、实体表数据
etl数据加工:业务日志与行为日志etl加工
数仓加工:入仓、缓冲层加工、贴源层加工、主题层加工、汇总层加工、集市层加工
数据展示:对接报表系统
即席查询:kylin预计算
无线网络优化大数据平台项目 项目前期准备:
架构设计:逻辑架构设计、技术架构设计、数据架构设计、开发规范文档讲解、调度设计
数据准备:数据字典解读、业务需求讲解
项目实施:
etl数据加工:原始数据加工处理
数仓加工:入仓、缓冲层加工、贴源层加工、主题层加工、汇总层加工、集市层加工
数据展示:对接报表系统
即席查询:kylin预计算
MPP架构-历史数据迁移项目 项目目标:应用装机数据库迁移,hadoop集群迁移至GaussDB 200数据库中,采用MPP架构建仓。
实施方案:hive卸数,GaussDB加载数据到缓冲层、缓冲层加载到贴源层、主题层数据摆放、汇总层数据汇总、集市层数据加工、数据校验
涉及到的技术:CDP7.1.5、java1.8、shell、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、GDS、airflow2.0.1
巨量数据采集引擎 项目前期准备:框架设计原理、底层框架编写、数据采集、数据备份、数据传输
项目描述:用 Python 实现一套可以爬取海量数据的多机并发框架并将数据存储到 HDFS 与 kafka 分布式消息队列中以实现海量数据爬取与大数据集群储存的无缝对接
涉及到的技术:Python、Sql、Shell、Queue、Mysql、Linux、Shell、HDFS、Snappy、Kakfa、Redis、Distributed、Phantomjs、HTML、Xpath
NLP自然语言处理 项目前期准备:内容智能识别算法、内容智能识别规则、数据计算、数据存储、数据产出
项目描述:通过大数据处理结合算法识别方式快速的从海量无规则的网页数据中获取有价值的内容信息,与传统模式相比可以极大的节省开发成本与人力资源成本。并能轻松应对持续的内容与数据增长。常见的应用案例有:搜索引擎的网页数据获取、今日头条等新闻客户端的聚合新闻、文本语义与热词分析
涉及到的技术:Scala、Python、Java、Sql、Shell、Spark、SparkStreaming、Kafka、BroadCast、MapAccumulator、Zookeeper、HDFS、Redis、Hive、UDF、HBase、ElasticSearch、Mysql、HainiuReport
SNS社交网络实时数仓系统 项目前期准备:实时数仓数据来源、实时数仓分层、用户画像系统、流批一体化
项目描述:对电商网站提供实时数据支持,用大数据的实时技术对数据做实时的数据处理,以达到数据快速的进入数仓各层,最终快速的触发产品线业务,做企业数据原始到结果的中间流水线。让相关人员实时的看到商城系统的点击率、转化率、用户留存、复购率、日活用户、月活用户、新增用户、地区热点、热门物品、流量来源等指标,帮助其及时的对业务做出正确的调整。并结合数据中台理念对用户进行实时标签分类,让用户数据快速的进入用户画像系统,以便广告系统做精准流量切分。
涉及到的技术:Scala、Python、Java、Sql、Shell、Flink、CheckPoint、State、EventTime、Windows、Kafka、HDFS、Avro、ORC、Snappy、Hive、Presto、UDF、Redis、HBase、ElasticSearch、Mysql、HainiuReport
计算广告学-物品相似度广告策略 项目前期准备:推荐系统、计算广告学、物品相似度算法
项目描述:从海量用户数据中基于用户的行为挖掘出相关性最高的物品,并考虑用户兴趣的时间窗口与多物品拥有者的降权处理。用于互联网广告推荐系统中智能推荐广告策略,通过用户的行为挖掘物品的相关性可以极大的提高个性化推荐系统的准确率从而提高细分流量上的广告收入,增加公司的流量变现能力
常见应用案例:百度的音乐推荐、豆瓣的电影推荐、淘宝与京东的物品推荐"
涉及到的技术:Scala、Java、Sql、Shell、Spark-core、Spark-Sql、MapReduce、Item-CF、CPA、CPC、CPM、ECPM、用户画像、正负样本、流量切分、推荐系统、今日头条广告系统、广告物料创意与计划、互联网广告策略、Hive、Presto、RowNumber、GID

有位老师想和您聊一聊