欢迎来到海牛学院,我们为培养专业大数据人才而生 全国咨询热线:400-608-1886
JavaSE Java入门 计算机语言和Java语言发展历史、JAVA体系结构和开发环境准备、Java编程初体验
Java基本语法 标识符、变量、数据类型、运算符、初步内存分析
流程控制语句 if、switch、while、dowhile、for语句,break、continue、return、递归、方法
数组 一维数组的基本操作,选择、冒泡排序,扩容数组二维数组,Arrays工具类,可变参数,内存分析
面向对象 类和对象详解,面向对象3大特性,this、super关键字抽象类,接口,内部类,单例饿汉和静态内部类模式,异常处理
常用类 String、StringBuffer、StringBuilder源码分析包装类,时间处理类,Math类
集合 Collection和Map接口学习,10种实现类源码分析,迭代器原理分析
IO 输入输出流,字节字符流,缓冲流,转换流,数据流对象流,序列化和反序列化,标准输入和输出流,文件的移动、拷贝、分割、合并
多线程 输入输出流,字节字符流,缓冲流,转换流,数据流对象流,序列化和反序列化,标准输入和输出流,文件的移动、拷贝、分割、合并
网络编程 网络基本知识,单URL爬取,Tcp协议,Socket编程
正则+反射+xml 正则使用,反射操作方法属性构造器,XmlDom4j解析
JavaEE javaEE基础 服务器介绍、tomcat原理、tomcat的debug环境、eclipse开发tomcat
http协议、get请求、post请求、ajax请求
html、jsp、html结构、div、form、input、span、table、a、img等常用标签
jsp原理、jsp基础语法、jsp指令、jsp内置对象、jsp调用js文件
HttpServletResponse常用方法、HttpServletRequest常用方法、session作用范围、applicationContext作用范围、作用域权限校验、表单提交
JavaScript常用的语法、函数、自定义函数、正则匹配、jQuery选择器、绑定事件、ajax原理、jQueryAjax
xml语法、xml结构、xmlDom、xml解析器、利用dom4j解析xml
注解的作用、四个元注解的理解、自定义注解、自定义注解解析
数据库连接池(c3p0)、连接池的优势、连接池配置、应用
servlet生命周期、servlet配置、ServletConfig、ServletContext应用
filter生命周期、filter配置、使用filter处理字符乱码问题
listener生命周期、listener配置、使用listener来加载初始化配置
MVC架构编写 springMVC原理、注解解析器、包扫描器、模型转换器、视图解析器、controller
sprintmvc类启动加载机制、反射代理、模型返回
代理转发、请求转发、MVC通用底层架构
IOC架构编写 springIOC原理、spring工厂、service代理
反射元注释类扫描、完整对象包装器
对象池、容器代理、依赖注入式性能调化方案
IOC通用框架实现、使用IOC模式代码重构
ORM架构编写 Orm原理、数据视图、数据模型、数据工厂、DAO
反射对象动态SQL、数据模型的增加、数据模型的修改、数据模型的读取、数据模型的删除、数据模型与JDBC的优劣对比
ORM通用框架实现、使用数据模型代替JDBC方式进行代码重构
linux 在虚拟机中安装Centos7.0 安装虚拟机、Centos7.0 linux系统、安装SecureCRT
Linux 简介及权限概述 linux简介、特点、发行版本、linux组成、用户与用户组的概念、linux文档属性
Shell 基本命令 查看目录和文件、find命令、查找特定命令、用户及版本信息查看、帮助命令
文档目录管理 linux目录结构,建立文件目录,文档的移动、复制、删除,改变文档所有权,改变文档权限,建立链接,输入输出重定向和管道
用户与用户组管理 linux的账号与群组,账号管理,群组管理,用户间切换
进程管理 进程调用过程及状态,查看进程,实时监控进程,kill进程
软件管理 修改yum源,安装JDK,安装mysql,从eclipse生成jar包,在linux执行
shell编程 vim编辑器,变量和运算符,数组,分支语句,循环语句
网络管理和多机操作 配置网络,网络常用命令,ssh免密登录,编写shell多机操作脚本,用于操作多台机器
hadoop hadoop概述 hadoop基础讲解、大数据的4V特点、hadoop的历史起源、hadoop核心组件、hadoop的框架演变、hadoop生态圈、hadoop典型应用
hadoop服务器基础环境 企业级集群规划、集群服务器的jdk安装、服务器环境变量设置、网络配置、主机名设置、防火墙设置、selinux设置、ssh信任配置、yum源修改、服务器常用软件安装、添加hadoop用户、多机操作脚本编写、服务器ssh信任配置、root用户免密切换
zookeeper安装与使用 zookeeper介绍、zookeeper主要角色、zookeeper数据模型、zookeeper主要特点、zookeeper应用场景、zookeeper安装、zookeepr配置讲解、zookeeper集群启动、zookeeper常用命令、zookeeper客户端使用、zookeeper的javar操作
hadoop伪分布式环境 hadoop伪分布式原理、winutils的使用、windows的hadoop环境配置、hadoop伪分布式配置讲解、hadoop伪分布式启动、hadoop伪分布式使用
hadoop安装 hadoop版本对比、hadoop源码包下载、linux的Maven安装、linux的Maven配置、hadoop的源码编译、hadoop本地库支持、hadoop安装规划、hadoop企业级配置精讲、hdfs安装、yarn安装
hdfs分布式文件系统 hdfs的高可用原理、企业级hdfs的配置、journalnode原理、zkfc原理、hdfs的初始化、namenode原理、namenode主备切换、datanode原理、HA集群的启动与关闭、hdfs的特点、hdfs的系统结构、数据块、hdfs写入原理、hdfs读取原理、hdfs的shell命令、hdfs的java操作、hdfs的管理工具使用、configuration配置文件加载机制源码分析
yarn资源管理器 yarn的特点、yarn的系统结构、企业级yarn配置、yarn集群的启动、yarn的HA、yarn集群的维护、yarn的任务调度器、yarn资源分配方法、resourcemanager原理、nodemanager原理、yarn提交任务过程分析、yarn集群任务运行
mapreducer分布式计算系统 分布式计算原理、mapreducer应用场景、mapreducer的split原理、mapreducer的suffle详解、mapper的输出流程、reducer的输入流程、partition的使用、mapreducer1与mapreducer2的区别、企业级mapreducer配置讲解、counter的原理与使用、combiner的原理与使用、distributecache的原理与使用、mapreducer的优化配置、mapreducer的windows开发环境搭建、任务配置文件加载机制、configuration原码分析、mapreducer的文件压缩、mapreducer编程wordcount、mapreducer编程排重、mapreducer编程最值计算、mapreducer编程自定义序列化类、mapreducer编程多目录输入输出、mapreducer编程局部排序、mapreducer编程全局排序、mapreducer编程二次排序、mapreducer编程任务工作链、mapreducer生成orc文件、mapreducer生成avro文件、mapreducer通用工具封装、mapreducer生产项目jar包生成方法、mapreducer任务企业级集群运行方法、mapreducer数据倾斜解决、mapreducer执行过程源码分析
hive hive介绍与安装 hive介绍、hive的优缺点、hive与关系数据库的区别、hive服务端组件driver、hive服务端组件metastore原理与使用、hive服务端组件thrift服务原理与使用、hive客户端组件CLI原理与使用、hive客户端组件JDBC/ODBC原理与使用、hive查询过程分析、hive的mysql元数据分析、hive安装、hive集群环境配置、hive的元数据库多种连接方法
hive数据类型与基础语法 hive的数据组织、hive的基本类型、hive的复杂类型、hive的关系运算符、hive的算数运算符、hive的逻辑运算符、hive的复杂运算符、聚合函数、hive的索引机制、hive的数据库操作
hive表操作 hive表操作基础语法、内部表原理、外部表原理、bucket表的使用、根据查询结果建表、复制表、删除表、修改表、增加表分区、删除分区、修改表分区、增加hive表字段、视图操作、hive表数据select加载、hive表数据load加载、动态分区、hive表单目录导出、hive表多目录导出
hive大数据查询 hive的avro格式、hive的orc格式、orc文件索引原理、抽样查询、左连接查询、右连接查询、内连接查询、全连接查询、hive非等值问题、union的使用、map端join、多维度统计查询、查询中使用条件判断、hive数据倾斜解决
hive排序 hive的局部排序原理、hive的全局排序原理、hive的order by、hive的sort by、hive的distribute by、hive的cluster by、hive的partition by、hive的桶表排序
hive函数 条件函数、字符串操作函数、日期函数、类型转换函数、符合类型函数、聚合函数、排序函数、分片函数、归一化原理、归一化函数、窗口函数、窗口函数行选择器、hive的windows开发环境搭建、row_number原理及应用场景、自定义UDF编写、自定义UDAF编写、自定义UDTF编写
oozie oozie原理与安装 oozie源码编译、oozie集成hbase、oozie集成hive、oozie集成pig、oozie集成spark、oozie集成sqoop、oozie任务yarn集群运行、oozie server安装、oozie client安装、oozie UI讲解
oozie任务调度 oozie调度shell任务、oozie调试ssh任、oozie调度streaming任务、oozie调试java任务、oozie调度sqoop任务、oozie调度spark任务、oozie调度java任务、oozie调度hive任务、oozie调度mapreducer任务、oozie调度java任务、oozie的distcp调度、oozie的cron调度、oozie的bundle调度
oozie的任务配置 oozie的workflow配置、oozie的任务流程控制、oozie的消息处理、oozie的任务输出控制、oozie的任务异常处理、oozie的任务参数传递、oozie的el基础语法、oozie的时间调度配置、oozie的coordinator配置、oozie的bundle配置、oozie任务的重试机制
web web调优 负载均衡原理
web服务器 nginx服务器、access日志
web日志开发 web服务日志切割、web服务日志HDFS集群存储
flume flume概述与安装 flume框架介绍、flume概念、event概念、flume的运行机制 、flume的广义用法 、Flume Source讲解、Flume Channel讲解、Flume Sink讲解、flume部署种类、流配置、单一代理、多代理说明、flume selector相关配置、flume集群安装
flume高级应用 flume的NetCat源、flume的Spooling Directory源、flume的Exec源、flume的Avro源
fume定制开发 flume日志采集、flume与nginx结合、flume与tomcat结合、flume脚本编写
python python基础 python简介、python特色、脚本语言特点、python组件、python生态环境
python开发环境安装 windows的python安装、linux的python安装、python的软件管理工具pip、python开发工具pycharm
python语法 python的语法结构、python数据类型、python的字符串操作、python的编码处理、python的运算符、python的表达式、if语法、while语法、for语法、break语法、continue语法、python的函数、局陪变量、global作用、默认参数、关键参数、return语句、python的doc、python的模块、python的pyc文件、python的主方法、dir函数、help函数、列表list、元组tuple、字典dict、集合set、引用、深拷贝、浅拷贝、元组与字符串操作、python的类特性、python的对象、self作用、python的init方法、类变量与对象变量、python的继承、python的文件操作、python的对象持久化、python的异常处理、python的finally作用、python的sys模块、python的os模块、python的del方法、python的列表综合、python的可变参数、python的lambda表达式、python的exec函数、python的eval函数、python的assert语句、python的repr函数、python的线程
python组件 队列组件、beautifulsoup4组件、hdfs组件、phantomjs组件、mysql组件、lxml组件、boto组件、pykafka组件、selenium组件、six组件、tld组件、urllib3组件
python高级开发 python的日志封装、python的数据库封装、python的分布式框架编写、python的IO流封装、python的时间操作封装、python的http请求封装、python的通用工具封装
hbase hbase概述 分布式数据库特点、列式存储特点、nosql数据库与关系数据库区别、hbase各组件介绍
hbase安装 hbase集群模式安装、hbase的yarn模式安装、hbase的环境变量配置、hbase的企业级集群配置、hbase的集群启动、hbase的web UI讲解
hbase原理 hbase数据单元、hbase的数据纬度、hbase物理存储结构、hbase的整体架构、hbase主要组件、hbase读写过程、hbase的regionserver、hbase的split策略、hbase的数据结构、B+树与LSM树区别、hbase的rowkey设计
hbase的shell操作 create语句、put语句、get语句、count语句、delete语句、deleteall语句、disable语句、scan语句、list语句、describe语句、alter语句、drop语句、exists语句、is_enabled语句、incr语句、get_counter语句、truncate语句
hbase的java操作 hbase的windows开发环境搭建、hbase创建连接、hbase创建表、hbase单行插入、hbase多行插入、hbase单行查询、hbase指量查询、hbase删除行、hbase删除列、hbase删除列簇、hbase删除表
hbase的filter操作 基础过滤器、正则比较器、字符串比较器、组合比较器、分页过滤器、自定义比较器
hbase的高级 hfile文件原理、mapreducer生成hfile、hfile文件指量导入、hbase预分region、自定义split方法、hbase的mapreducer批量导出、mapreducer读出hive文件、hive数据仓储导入hbase、hbase数据导入hive数据仓储、yarn集群的hbase运行环境调优、hbase的读写缓存使用、hbase的集群模式运行
kafka kafka概述与集群安装 kafka概述、kafka特性、kafka的consumer、kafka的producer、kafka的broker、kafka的topic、kfka的partition、kafka的体系结构、kakfa的分布式原理、kafka的消息生产原理、kafka的消息消费原理、kafka的消息消费顺序、kafka企业级配置讲解、kafka生产者配置、kafka消息者配置、kafka多节点集群安装
kafka的api操作 创建topic、查看topic详情、命令删除topic、手动删除topic、消费者启动、生产者启动、修改分区扩容、修改备份数量、kafka的java版api操作、kafka的scala版api操作
kafka调优 kafka集群规划、kafka的吞吐量优化、kafka的分区设置、kafka的副本设置、kafka读写缓冲区调优、broker的配置调优、kafka的topic多场景配置、kafka的集群扩充
scala scala理念与生态 大数据之scala生态、scala与JVM的关系、scala与java的对比、scala与python的对比、scala的装饰模式、scala的门面模式、scala的函数式编程介绍、scala的函数式编程优点、scala的面向对象编程与函数式编程结合
scala开发环境安装 windows的scala安装、linux的scala安装、scala的开发工具idea的安装与使用、使用maven管理scala、scala的SDK开发配置
scala基础语法 val变量、var变量、scala语法的逻辑行、scala的值类型、if语句、else if语句、混合类型表达式、for语句、to方法、until方法、高级for嵌套、yield关键字、数值操作、字符器操作、scala的方法、scala的函数、方法转换函数、数组、变长数组、定长数组、数组操作、映射、可变映射、不可变映射、映射操作、数组转换成映射、拉链操作、元组、元组操作、元组组合赋值、集合、list、listBuffer、set、HashSet、map、hashMap、集合之map方法、集合之filter方法、集合之sorted方法、集合之reverse方法、集合之grouped方法、集合之flatten方法、集合之flatMap方法、集合之par方法、集合之reduce方法、集合之reduceLeft方法、集合之reduceRight方法、集合之fold方法、集合之foldLeft方法、集合之flodRight方法、集合之aggregate方法、集合之union方法、集合之intersect方法、集合之diff方法、eq与equals和sameElements的区别、lazy关键字、类、静态类、主构造器、辅助构造器、scala单例对象、scala伴生对象、apply方法、unapply方法、Option与Some对象、private关键字、特质、抽象类、重写、特质与抽象类区别、with关键字、extends关键字、模式匹配、match关键字、case关键字、字符串匹配、类型匹配、集合匹配、样例类匹配、偏函数匹配、泛型、UpperBound、LowerBound、ViewBound、ContextBound、逆变、协变
scala高级特性 高阶函数、柯里化、隐式转换、implicit关键字、隐式值、隐式函数、隐式类型、隐式转换与柯里化、隐式转换与泛型、Actor介绍、Actor与Java并发编程对比、Actor的start方法、Actor的act方法、异步消息发送、同步消息发送、scala版wordcount编程、Actor的wordcount编程、Akka介绍、Akka与Actor的关系、preStart方法、receive方法、Akka系统结构、使用Akka编写分布式通信模型
spark spark介绍 spark介绍、spark历史、spark适用场景、spark与hadoop对比、spark生态、spark应用场景、spark-shell介绍
rdd原理 RDD设计背景、RDD概念、RDD转换、RDD行为、RDD血缘关系、RDD高效容错性、RDD内存使用、RDD缓存数据、RDD依赖关系、宽依赖、窄依赖、宽依赖与窄依赖的区别、RDD的阶段划分、RDD缓存级别、RDD数据倾斜解决、RDD优化
spark常用Transformations算子 map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions
spark常用Actions算子 reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、countByKey、foreach
spark-core rdd常用操作、pairRdd常用操作、sparkconf配置对象、sparkcontext设置、spark-core的java版API、spark-core的scala版API、集合操作、cache函数、persist函数、unpersist函数、广播变量、累加器、spark编程wordCount、spark编程排序、spark编程二次排序、spark编程mapjoin、spark使用hadoop序列化方法、spark读写hive的ORC文件
spark-sql hive与spark-sql对比、配置spark-sql使用hive元数据库、spark-sql在yarn上运行driver、spart-sql在yarn上运行thriftserver、beeline与thriftserver通信、缓存表、spark-jdbc编程、spark-sql读写json文件、spark-sql自定义schema、spark-sql对象化schema、spark-sql读写hive的orc格式文件、spark-sql的标准sql支持、spark-sql的hive sql支持、spark-sql使用JDBC访问mysql、dataFrame使用、dataSet使用、spark-sql与常用rdd的转换
spark-hbase spark-hbase的java版API、spark-hbase的scala版API、spark写入hbase、spark批量写入hbase、spark中使用tableoutputformat多分区写入、spark的hadoopDataSet操作、spark批量读取hbase、spark使用filter过滤hbase数据、spark生成hbase的hfile文件、spark整合hbase的bulk load功能、spark-hbase集群运行调优
spark-streaming 流式计算的特点、spark-streaming的原理、spark-streaming的生态组件、storm与Spark Streming对比、spark-streaming的优缺点、spark-streaming的数据处理流程、spark-streaming的架构与抽象、spark-streaming的java版API、spark-streaming的scala版API、spark-streaming的DStream对象、DStream的Transformations操作、DStream的Output Operations操作、updateStateByKey原理与使用、DStream使用transform转换成RDD、windows函数原理、windows函数窗口间隔、windows滑动间隔、spark-streaming保存压缩文件、spark-streaming保存hive的ORC文件、spark-streaming数据导入到hbase、spark-streaming的socket模式、ncat工具的使用、spark-streaming的checkpoint原理、spark-streaming的文件模式、spark-streaming的kafka模式、spark-streaming编程在windows函数中使用updateStateByKey、spark-streaming编程使用历史数据中最新值、spark-streaming编程使用checkpoint恢复历史数据、spark-streaming编程spark-streaming-kafka cogroup spark-streaming-file
spark调优 内存 对象头内存、String内存、集合内存、虚拟机垃圾回收原理、虚拟机垃圾回收调优、虚拟机对象内存空间分配、垃圾回收检测、优化executor内存比例
序列化 Java序列化机制、Kryo序列化机制、优化Kryo类库缓存大小、注册自定义类型、禁用Kryo序列化引用
数据结构 数组代替集合、字符串代替集合、JSON代替对象
持久化 持久化级别、Checkpoint冗余
并行度 算子并行度设置、conf默认并行度设置、cpu core与task并行度比例
共享数据 共享数据优点、共享数据代替外部变量、使用共享数据替代shuffle
数据本地化 数据本地化性能影响、PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY、数据本地方调化方案
算子优化 reduceByKey优点、shuffle排序的取舍、groupByKey.map使用场景、cogroup使用场景、join方案代替cogroup、combiner的使用
数据倾斜 spark-sql数据倾斜group场景、spark-sql数据倾斜join场景、倾斜数据的清洗、随机前缀多次聚合、倍数扩容与倍数冗余、mapjoin、数据倾斜shuffle取舍
shuffle consolidate机制、reduce task的拉取缓存、map task的写磁盘缓存、失败重试次数、失败重试间隔、reduce端内存聚合比例、sortShuffleManager
streaming DStream接收并行度调优、block接收并行度调优、task接收并行度调优、处理并行度调优、序列化调优、batch间隔调优、streaming算子调化、内存调优、streaming执行化方案选择、压缩机制

有位老师想和您聊一聊