0
与技术老师在线交谈!
海汼部落云平台 💋 实战镜像等你来
  • 官网首页
  • 大数据培训前景
  • 大数据培训课程
  • 大数据培训名师
  • 大数据培训报名
大数据工程师
为什么越来越吃香
  • 行业需求大

    大数据已纳入国家十四五规划。大数据在健康医疗、智慧城市、互联网、电子商务等行业加速发展,人才缺口达100万+。

  • 就业范围广

    大数据人才可从事大数据开发、大数据仓储、大数据挖掘、深度学习、人工智能等岗位,岗位含金量高。

  • 就业薪资高

    2021年下半年大数据领域企业平均薪资29000+,行业岗位薪资且无上限。

多种亮点助你成为大数据行业牛人
海牛大数据大咖名师 + 前沿技术好课 + 实力硬件 + 优质服务 + 华为HCIP认证
原年薪百万大数据总监领衔亲授,更有华为、金山等名企大数据工程师牛人项目实战教学。
紧跟技术前沿,数位大厂大数据研发工程师共同打造,课程体系已迭代至8.0。覆盖Hadoop、Spark、Flink等核心技术。
课程覆盖健康医疗、智慧城市、互联网、电子商务等主流行业,理论 + 项目实战 + 源码分析全程贯穿,对标BAT等大厂。
实战派教学方法
华为、金山大厂技术大牛线下1对1指导,六大阶段 + 360评测 + 形式多样的学习实践,
助你成为行业牛人。大专0基础也可轻松学。
  • 技术大牛画图写算法
  • 建集群比赛
  • 技术PK赛
  • 项目PK赛
企业级物理集群让你真正玩的起大数据
海牛大数据采用物理集群,完全对标企业真实生产环境,可同时跑几十亿数据,不忽悠,杜绝虚拟机实操,
让学生不用额外再花钱购买昂贵云服务,使用海牛提供PB级企业算力。真真正正让学生在真实战场上实操。
  • 虚拟机算力不足
  • 云计算价格昂贵
  • 物理集群算力自由
一切为学生着想的服务
教、学、食、宿一体化,楼下教学,楼上食宿,安全有保障,学生省心省力,解决学生后顾之忧。
  • 节省时间
  • 安全放心
助您考取华为大数据HCIP认证
海牛大数据做为华为云官方认证合作伙伴,课程涵盖HUAWEI GaussDB 200数据库,
不仅让您可以学习大数据全栈技术,还可以考取华为大数据HCIP认证,让您更受企业青睐。
  • 华为云精英服务商
  • 华为大数据HCIP认证
一线大厂,真实项目,杜绝忽悠
华为、金山大数据架构师亲自指导开发、测试、集群部署,全程贯穿企业项目实战开发,真实还原企业实际工作场景
  • 离线数仓
  • 数据迁移
  • MPP架构
  • 数据引擎
  • NLP实时处理
  • SNS实时数仓
  • 数据挖掘
项目名称

商城数仓实践项目

涉及技术

CDP7.1.5、java1.8、shell、Hadoop3.1、kettle、mysql、hive3.1.3、hbase2.2.3、es7.6.2、kylin、kerberos、ranger2.0、sqoop1.4.7、Zookeeper3.5、flume1.9.0、impala3.4、airflow2.0.1、kudu1.12、hue4.5、jdbc、superset1.0.

项目设计

CoolNiu商城行为日志、业务日志与实体表作为数据源;经过ETL加工与数据抽取后入仓,数仓采用hive+kudu混合模式,支持高吞吐与随机读写需求,数据仓库进行技术缓冲层ITL、贴源模型层IOL逻辑加工处理,主体模型层IML划分,共性加工层ICL加工,应用集市层IDL

对外供数;数据集市对接报表系统;kylin对接数据仓库,联机分析处理,实现即席查询,毫秒级响应;hbase存储用户标签数据,结合es二级索引对外提供组合查询,实现亿级数据毫秒级查询响应;airflow实现T+N任务调度。

项目名称

历史数据迁移项目

涉及技术

CDP7.1.5、java1.8、shell、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、GDS、airflow2.0.1

项目设计

应用装机数据库迁移,hadoop集群迁移至GaussDB 200数据库中,采用MPP架构建仓。实施方案:hive卸数,GaussDB加载数据到缓冲层、缓冲层加载到贴源层、主题层数据摆放、汇总层数据汇总、集市层数据加工、数据校验

项目名称

无线网络优化大数据平台项目

涉及技术

CDP7.1.5、java1.8、shell、flume1.9.0、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、airflow2.0.1、kylin3.1.1、hbase2.2.3、lily、solr8.6.4、spurset1.0.0

项目设计

收集基站测量报告,转换清洗入仓,采用MPP架构数仓,按数据主题摆放,数据集市加工各项kpi指标,关联基站工参信息与测量报告分析用户业务质量,分析基站网络覆盖情况、分析网络负载情况、分析区域用户数、OLAP联机分析系统实时查询、用户画像管理、报表展示。

项目名称

巨量数据采集引擎

涉及技术

Python3.9.2、Sql、Shell、Queue、Mysql、Linux、Shell、HDFS、Snappy、Kakfa2.7、Redis6.2.1、Distributed、Phantomjs、HTML、Xpath

项目设计

用 Python 实现一套可以爬取海量数据的多机并发框架并将数据存储到 HDFS 与 kafka 分布式消息队列中以实现海量数据爬取与大数据集群储存的无缝对接

前期准备

框架设计原理:观察者设计模式原理、生产者消费者设计模式原理、内存队列、队列中间件

底层框架编写:队列数据原子性操作、通用标准定义、多线程并发、线程等待、失败重试、多机分布式并发

数据采集:种子定义、内容排重、内外链分析、链接归一化、phantomjs 内存管理

数据备份:数据切割、本地数据备份、集群备份

数据传输:数据传输完整性校验、数据推送 kafka、数据上传 HDFS

项目名称

NLP自然语言处理系统项目

涉及技术

Scala2.13.5、Python3.9.2、Java、Sql、Shell、Spark3.1.1、SparkStreaming、Kafka2.7、BroadCast、Zookeeper、Hadoop3.2.2、Redis6.2.1、Hive2.3.8、UDF、Hbase2.4.2、ElasticSearch7.6.2、Mysql、HainiuReportMapAccumulator

项目设计

通过大数据处理结合算法识别方式快速的从海量无规则的网页数据中获取有价值的内容信息,与传统模式相比可以极大的节省开发成本与人力资源成本。并能轻松应对持续的内容与数据增长。常见的应用案例有:搜索引擎的网页数据获取、今日头条等新闻客户端的聚合新闻、文本语义与热词分析。

项目名称

SNS社交网络实时数仓系统项目

涉及技术

Java1.8、Hadoop3.2.2、Python3.9.2、Java、Sql、Shell、Flink1.12.2、CheckPoint、State、EventTime、Windows、Kafka、HDFS、Avro、ORC、Snappy、Hive、Presto0.248、UDF、Redis6.2.1、HBase2.4.2、ElasticSearch7.6.2、Mysql、HainiuReport

项目设计

对SNS社交网络提供实时数据支持,用大数据的实时技术对数据做实时的数据处理,以达到数据快速的进入数仓各层,最终快速的触发产品线业务,做企业数据原始到结果的中间流水线。让相关人员实时的看到点击率、转化率、用户留存、复购率、日活用户、月活用户、新增用户、地区热点、话题热点、流量来源等指标,帮助其及时的对业务做出正确的调整。并结合数据中台理念对用户进行实时标签分类,让用户数据快速的进入用户画像系统,以便广告系统做精准流量切分。

前期准备

实时数仓数据来源:用户行为日志、业务日志、业务表数据

实时数仓分层:技术缓冲层ITL、贴源模型层IOL、主体模型层IML、共性加工层ICL、应用集市层IDL

用户画像系统:用户标签作用、用户基础标签、用户标签计算

流批一体化:如何与离线数仓结合、支持批量OLAP处理、复用数仓元库

项目名称

数据挖掘项目

涉及技术

Scala2.13.5、Java、Sql、Shell、Spark3.1.1、Spark-core、Spark-Sql、Hadoop3.2.2、MapReduce、Item-CF、CPA、CPC、CPM、ECPM、用户画像、正负样本、流量切分、推荐系统、今日头条广告系统、广告物料创意与计划、互联网广告策略、Hive、Presto0.248、RowNumber、GID

项目设计

从海量用户数据中基于用户的行为挖掘出相关性最高的物品,并考虑用户兴趣的时间窗口与多物品拥有者的降权处理。用于互联网广告推荐系统中智能推荐广告策略,通过用户的行为挖掘物品的相关性可以极大的提高个性化推荐系统的准确率从而提高细分流量上的广告收入,增加公司的流量变现能力。

常见应用案例:百度的音乐推荐、豆瓣的电影推荐、淘宝与京东的物品推荐

前期准备

推荐系统:推荐系统介绍、个性化推荐系统就用场景、推荐系统评测指标、推荐系统冷启动、推荐算法选择、推荐系统覆盖率、推荐系统多样性、推荐系统新颖性、推荐系统惊喜度、推荐系统实时性、推荐系统长尾性

计算广告学:人群分类、流量切分、ctr 预估、cvr 预估、ECPM 计算、数据截断规则、离线试验数据选择、离线试验方法

物品相似度算法:离线结果评测、线上广告策略

海牛项目迭代演进

已淘汰项目

今日头条分布式高并发
内容采集系统项目

今日头条内容智能识别
系统项目

CoolNiu商城实时数仓
系统项目

当前项目

CDP平台-CoolNiu商城数仓实践项目(重磅项目)

MPP架构-无线网络优化大数据平台(重磅项目)

MPP架构-历史数据迁移项目

NLP自然语言处理系统项目

巨量数据采集引擎项目

SNS社交网络实时数仓系统项目

计算广告学-物品相似度广告策略项目(重磅项目)

研发中的项目

大数据云服务平台

海量历史数据高速查询项目

湖仓一体化项目

比较之后才知道
海牛大数据是真的牛

师资

课程

实训项目

就业


一般机构

无大数据工作经验

无大数据课程研发能力

课时80%为Java开发

实训项目少

实训环境虚拟机

就业较难保证

大数据岗位难匹配

成长空间有限


海牛大数据

金山软件大数据总监

金山云大数据架构师

华为大数据架构师

大数据课程已迭代到8.0

课时100%为大数据开发

实训项目紧跟大数据前沿技术

真正的企业级物理集群服务器

名企内推、合作企业直推

所学技术扎实过硬,企
业好评度高

项目满足企业需求,薪
资高,发展机会大

紧跟前沿技术已迭代至8.0
原年薪百万技术总监与知名大厂大数据工程师共同打造

Java基础

Java基本语法

流程控制语句

数组

面向对象

常用工具类

集合

IO流

多线程

网络编程

正则、反射、XML

IDEA

IDEA常用设置、常用快捷键

代码自动格式化

自定义模板

Git集成

Java8/9/10/11
新特性

Lambda表达式

StreamAPI

Optional加强

接口的私有化

构造器引用

类型推断

数据结构

堆栈结构

单向循环链表

双向非循环链表

双向循环链表

有序树

无序树

二叉树

红黑树

算法

插入排序

冒泡排序

选择排序

快速排序

归并排序

二分查找

穷举算法

贪心算法

Java分布式运算

单线程WordCount

多线程WordCount

多进程网络通信

多机分布式WordCount

阶段一

JavaSE基础篇

课程核心内容
01
深入理解Java面向对象思想
02
深入理解JVM底层原理
03
熟练使用集合、IO、多线程
04
强化数据结构与算法
05
理解分布式计算理论
课程设计目的

本阶段主要目的,让零基础小白从Java过渡到大数据做好前置准备,不仅可以掌握Java的常见知识外,还重点解了面向对象抽象思维、集合源码、数据结构,逐步提高小白由浅入深的学习能力,此外还可以从分布式运算原理案例入手让大家为大数据框架学习打好基础。

Mysql

数据库三范式

事务隔离

DML语言、DDL语言、DCL语言

Group查询、Join查询、子查询、Union查询

Mysql数据库、表、视图

Mysql索引、分页、SQL优化技巧

MySQL存储过程

慢查询分析

JDBC

使用JDBC完成数据库增删改查操作

JDBC的批量查询与插入

数据库连接池详解

Druid连接池的优化

Linux

SecureCRT使用

Linux权限管理

Shell基本命令

文档目录管理

用户与用户组管理

进程管理

软件管理

shell编程

Zookeeper

Zookeeper详解、数据存储结构

选举机制

分布式锁实现

Zookeeper容错恢复

Hadoop

Hadoop企业级集群服务器规划

Hadoop集群硬盘与网络性能调优

源码编译

HDFS底层详解

HDFS的HA高可用详解

HDFS的常用命令

跨集群数据迁移

LZO、SNAPPY、GZIP文件压缩格式

Yarn底层详解、Yarn的HA高可用详解

资源调度器热加载

MapReduce

MapReduce案例详解

MapReduce调优

Combiner、Conunter组件详解

分布式缓存应用

MapReduce源码剖析

MapReduce任务工作链

Hive

Hive架构原理

Hive元库类型

Hive元库类型高可用

Hive的DML数据操作

Hive企业级调优

Hive分区与分桶

ORC、AVRO、PARQUET格式对比

Hive开发环境调试模式

HIve常用函数

HIve自定义函数企业级部署

阶段二

大数据基础篇

课程核心内容
01
深入理解结构化数据存储
02
掌握Linux系统操作
03
深入理解分布式存储与运算
04
深入理解大数据框架高可用
05
掌握使用SQL操作大数据
06
深入理解大数据运算优化逻辑
课程设计目的

本阶段主要目的,从Mysql -> Hadoop -> MapReduce -> Hive的学习过程,让学员理解小数据处理和大数据处理的区别,单点运算与分布式运算的区别,从而深入理解大数据分布式运算的优缺点。并以Hadoop框架为中心提高学员的实操能力,以Hive为中心提高学生SQL能力,为后面的数仓课程打好基础。

数据仓库

主流大数据平台CDH、CDP、TDH、FI HD、FI MRS性能对比

CDH、CDP大数据平台搭建

Kerberos安全认证详解

Ranger服务集成

数仓理论

数据仓库各领域应用

数据仓库分层设计

数据仓库分层设计

数据仓库存储策略

Hbase

Hbase各组件详解

分布式数据库特点、列式存储特点、nosql数据库与关系数据库区别

Hbase集群模式安装、Hbase的yarn模式安装

Hbase的企业级集群配置

Hbase的企业级集群配置

Hbase的shell操作

Hive外表加载数据到Hbase,Hive卸载Hbase数据

Hbase读写风暴优化

Phoenix

Phoenix安装配置

Phoenix查询原理

Phoenix与hbase如何结合使用

DDL与DML支持、事务支持

JDBC驱动嵌入讲解

Phoenix优缺点

Lily+Solr

Lily Hbase Indexer架构

Lily Hbase Indexer实现Solr二级索引

批量与准实时建立Hbase数据Solr索引

Solr的Morphline任务

Solr webui使用

Hue中使用Solr

ELK

倒排索引原理

分布式搜索引擎

Kibana集成

Logstash集成

IK分词器集成

创建索引、管理索引、管理副本、管理分片

ES与Hadoop数据同步

Java操作ES

Impala

Impala原理

数据类型

存储类型

常用函数实操

性能调优实操

操作Hbase实操

kudu

kudu架构

Table分区策略

Kudu底层数据模型

Kudu随机读写

读写性能对比

Java api操作不同数据刷新策略

kylin

Kylin原理

OLAP概述

Kylin安装部署

Cube设计

预计算实操

对接报表系统实操

Kettle

Kettle原理、Kettle组件特性

Kettle数据转换实操

flume

Flume框架介绍

Flume数据简单清洗

Source、Channel、Sink讲解

NetCat源、Spooling Directory源、Exec源、Avro源

sqoop

原理、适用场景、split-by参数配置、num-mappers配置

设置input、设置output、设置map、设置task number、工作流程

操作mysql、hive

关系型数据库数据导入HDFS、增量抽取数据到HDFS

任务调度

Airflow调度

DolphinScheduler调度

HUAWEI
GaussDB 200

国产化数据库兴起及MPP架构热度

GaussDB与其他MPP数据库性能对比

GaussDB与hadoop的对比

GaussDB物理架构、集群逻辑部署

GaussDB行存储、列存储、混合存储

GaussDB数据类型

gsql客户端

DDL语法实操、DML语法实操、DCL语法实操

GaussDB分布键原理、GaussDB分布键设计策

GaussDB复制表与分布表原理

GaussDB分区剪枝原理、GaussDB数据迁移方式

GaussDB Roach容灾原理

GaussDB分布式执行计划原理

GaussDB函数和操作符

GaussDB存储过程

存储过程实操、GaussDB调优实操

阶段三

数据仓库与大数据工具篇

课程核心内容
01
数仓分层,传统四层与高效五层区别
02
使用数仓理论让数据变得简单易用
03
对业务抽象建模
04
使用Hbase生态完成数据存储与快速查询数据
05
使用Lily、Solr、ES加强Hbase索引
06
使用Kudu提升数据查询性能
07
使用Kylin提升数据查询性能
08
使用Kettle完成工具化ETL过程
09
使用Flume和Sqoop完成数据迁移
10
使用任务调度工具跑批量数据
11
使用政企主流MPP架构数据库GaussDB代替apache生态大数据组件完成数仓存储与查询
课程设计目的

本阶段主要目的,结合企业案例深入理解数据治理的主要方法,并使用工具化方式让大数据的计算与存储变的简单高效,不仅查的快,算的也容易,在此阶段学员即可掌握进入大数据行业的技能,可选择以数仓工程师方式就业,或者为更高级的大数据开发打好基础。

Scala

Scala与JVM的关系、Scala与Java的对比、Scala与Python的对比

Windows的Scala安装、Linux的Scala安装

使用Maven管理Scala、Scala的SDK开发配置

Scala基础语法

高阶函数、柯里化、隐式转换

多线程与网络编程

Spark

Spark介绍

集群安装、Yarn模式集群使用

RDD原理

Spark常用Transformations算子

Spark常用Actions算子

Spark背压原理

Shuffle优化

算子调优

内存调优

Spark-core

Spark-sql

Spark操作hbase

Spark-streaming

Receive流与Direct流对比

Kafka

集群安装

Consumer、Producer、Broker、Topic、Partition组件原理

Kafka的Java api操作

自动管理Offset、手机管理Offset

Kafka调优

Spark-streaming操作Offset到Zookeeper/Redis

Flink

Flink生态、Flink的发展与未来趋势

Flink的反压机制、Flink的DataFlow原理、Flink的状态编程

Local模式安装、Standalone模式安装、HA模式安装、yarn模式安装

TaskManger原理、JobManagers原理、Client原理

Scala/Java开发环境搭建

SourceFunction、ProcessFunction、SinkFunction、RichFunction、ProcessFunction

Operator算子编程

Connect、Union、KeyBy实现数据Join

State作用与原理、分布式Checkpoint原理、SavePoint原理

EventTime、IngestTime、ProcessingTime区别,Watermark原理

统计Windows、滚动Window、滑动Window、事件Window

TimeService实现自定义窗口

Flink-sql、CEP、异步IO


使用Flink CDC同步Mysql数据

Python3

Python脚本语言运行原理、与Java/Scala区别

Python基础语法、PyCharm开发工作安装与使用

Pip包管理

Python的分布式框架编写

Redis

Redis介绍、Redis应用场景

Redis单机模式、一致性hash原理、Redis集群模式

redis容灾、redis主备复制方案、redis读写分离方案

python操作redis、java操作redis、scala操作redis

ClickHouse

ClickHouse的安装部署

读写机制

数据类型

执行引擎

Springboot

微服务接口

SpringCloud负载均衡

阶段四

大数据开发篇

课程核心内容
01
与Java对比学习Scala的函数式编程、隐式转换、泛型、模式匹配等新特性
02
Spark的内存计算的快与RDD编程的简单易用
03
Spark-sql代替Hive完成sql化大数据查询
04
spark-streaming流式计算中使用RDD与SQL
05
Kafka流式计算专用数据管道
06
Flink更高效更安全的流式计算引擎
07
Python使用生产消费模式完成自定义框架,批量获取数据到Kafka
08
流式计算中使用Redis做中间数据存储
09
流式计算结果导入ClickHouse完成数据的实时计算与查询
课程设计目的

本阶段主要目的,深入理解大数据生态不仅要查的快而且要算的快,并结合软件工程中的设计模式,让学员深入理解软件架构的组成为以后的职业生涯打好基础,在原有第三阶段学习具备就业能力的基础上提高学员的薪资水平。

CDP平台-CoolNiu商城数仓项目

GaussDB无线网络优化大数据平台项目

GaussDB数据迁移项目

巨量数据采集引擎项目

NLP自然语言处理项目

SNS社交网络实时数仓项目

计算广告学-物品相似度广告策略项目

阶段五

项目实战篇

课程核心内容
01
熟练移动与电商业务场景,可以从0到1搭建大数据处理系统,了解企业处理大数据的第一步,了解大数据技术岗位工作流程
02
熟练操作国产化MPP架构数据库系统GaussDB,为政企、金融大数据工作做好准备
03
熟练使用高并发框架,可以海量的获取互联网开放数据,补充大数据多样化
04
实时计算结合机器学习,完成数据处理的自动化和高速化
05
熟练使用实时计算,快速完成数据入仓,并结合社交业务完成用户的标定,做好用户画像,完成大数据项目数据变现的基础
06
使用数据挖掘,产出高潜数据,并结合计算广告学的CTR、CVR指标完成数据的离线实验,使用CPC、CPA、CPM不同的广告计费模式增强企业使用数据变现的能力
课程设计目的

本阶段主要目的,本阶段根据小、中、大的企业使用大数据的场景,全方位设计大数据项目,以项目为中心,以企业级大数据集群为平台,让学员迅速完成实战经验积累,加强对各大数据框架的认识,让学生有能力应对市面上各种类型公司的大数据需求。

根据学员就业意向做个性化定制

简历指导、面试指导

模拟PK

模拟面试

面试录音、一对一指导

模拟面试、一对一

未来大数据架构师职业规划

阶段六

就业指导

课程核心内容
01
根据学员的课程掌握情况与就业城市制定薪资标准
02
业务场景多样化
03
熟练掌握面试技巧
04
简历亮点提取
05
一对一HR面
06
一对一技术面
课程设计目的

本阶段主要目的,根据学员自身特点优化面试技巧,提炼面式过程中项目的技术关键点,并给予未来职业发展的建议,让学员在求职过程中过好面试关,工作过程中少踩坑,让学员有足够的信心应对未来的大数据技术之路。

签订就业保障协议
签订就业保障协议
180天成就一个很牛的你
这是一段让人向往的学习奋斗旅程
大咖级讲师亲自授课 课程为学员成长持续赋能 学员真实情况大公开

电话:18613807937

地址:北京市大兴区芦花路1号院时代•智谷A座501

Copyright 2001-2022 海牛大数据 - 北京阳光海牛科技有限公司 版权所有

京ICP备17041118号
  • 在线咨询

    现在就与学习导师聊一聊

  • 询问

    在线咨询
  • 0元

    免费试学
  • 0元

    索要资料
  • 零基础

    全日制就业班
  • 微信咨询
  • 电话咨询

    咨询电话:

    18613807937