今日头条分布式高并发
内容采集系统项目
今日头条内容智能识别
系统项目
CoolNiu商城实时数仓
系统项目
大数据已纳入国家十四五规划。大数据在健康医疗、智慧城市、互联网、电子商务等行业加速发展,人才缺口达100万+。
大数据人才可从事大数据开发、大数据仓储、大数据挖掘、深度学习、人工智能等岗位,岗位含金量高。
2021年下半年大数据领域企业平均薪资29000+,行业岗位薪资且无上限。
CDP7.1.5、java1.8、shell、Hadoop3.1、kettle、mysql、hive3.1.3、hbase2.2.3、es7.6.2、kylin、kerberos、ranger2.0、sqoop1.4.7、Zookeeper3.5、flume1.9.0、impala3.4、airflow2.0.1、kudu1.12、hue4.5、jdbc、superset1.0.
CoolNiu商城行为日志、业务日志与实体表作为数据源;经过ETL加工与数据抽取后入仓,数仓采用hive+kudu混合模式,支持高吞吐与随机读写需求,数据仓库进行技术缓冲层ITL、贴源模型层IOL逻辑加工处理,主体模型层IML划分,共性加工层ICL加工,应用集市层IDL
对外供数;数据集市对接报表系统;kylin对接数据仓库,联机分析处理,实现即席查询,毫秒级响应;hbase存储用户标签数据,结合es二级索引对外提供组合查询,实现亿级数据毫秒级查询响应;airflow实现T+N任务调度。
CDP7.1.5、java1.8、shell、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、GDS、airflow2.0.1
应用装机数据库迁移,hadoop集群迁移至GaussDB 200数据库中,采用MPP架构建仓。实施方案:hive卸数,GaussDB加载数据到缓冲层、缓冲层加载到贴源层、主题层数据摆放、汇总层数据汇总、集市层数据加工、数据校验
CDP7.1.5、java1.8、shell、flume1.9.0、Hadoop3.1、hive3.1.3、GaussDB 200 V100R002C80、airflow2.0.1、kylin3.1.1、hbase2.2.3、lily、solr8.6.4、spurset1.0.0
收集基站测量报告,转换清洗入仓,采用MPP架构数仓,按数据主题摆放,数据集市加工各项kpi指标,关联基站工参信息与测量报告分析用户业务质量,分析基站网络覆盖情况、分析网络负载情况、分析区域用户数、OLAP联机分析系统实时查询、用户画像管理、报表展示。
Python3.9.2、Sql、Shell、Queue、Mysql、Linux、Shell、HDFS、Snappy、Kakfa2.7、Redis6.2.1、Distributed、Phantomjs、HTML、Xpath
用 Python 实现一套可以爬取海量数据的多机并发框架并将数据存储到 HDFS 与 kafka 分布式消息队列中以实现海量数据爬取与大数据集群储存的无缝对接
框架设计原理:观察者设计模式原理、生产者消费者设计模式原理、内存队列、队列中间件
底层框架编写:队列数据原子性操作、通用标准定义、多线程并发、线程等待、失败重试、多机分布式并发
数据采集:种子定义、内容排重、内外链分析、链接归一化、phantomjs 内存管理
数据备份:数据切割、本地数据备份、集群备份
数据传输:数据传输完整性校验、数据推送 kafka、数据上传 HDFS
Scala2.13.5、Python3.9.2、Java、Sql、Shell、Spark3.1.1、SparkStreaming、Kafka2.7、BroadCast、Zookeeper、Hadoop3.2.2、Redis6.2.1、Hive2.3.8、UDF、Hbase2.4.2、ElasticSearch7.6.2、Mysql、HainiuReportMapAccumulator
通过大数据处理结合算法识别方式快速的从海量无规则的网页数据中获取有价值的内容信息,与传统模式相比可以极大的节省开发成本与人力资源成本。并能轻松应对持续的内容与数据增长。常见的应用案例有:搜索引擎的网页数据获取、今日头条等新闻客户端的聚合新闻、文本语义与热词分析。
Java1.8、Hadoop3.2.2、Python3.9.2、Java、Sql、Shell、Flink1.12.2、CheckPoint、State、EventTime、Windows、Kafka、HDFS、Avro、ORC、Snappy、Hive、Presto0.248、UDF、Redis6.2.1、HBase2.4.2、ElasticSearch7.6.2、Mysql、HainiuReport
对SNS社交网络提供实时数据支持,用大数据的实时技术对数据做实时的数据处理,以达到数据快速的进入数仓各层,最终快速的触发产品线业务,做企业数据原始到结果的中间流水线。让相关人员实时的看到点击率、转化率、用户留存、复购率、日活用户、月活用户、新增用户、地区热点、话题热点、流量来源等指标,帮助其及时的对业务做出正确的调整。并结合数据中台理念对用户进行实时标签分类,让用户数据快速的进入用户画像系统,以便广告系统做精准流量切分。
实时数仓数据来源:用户行为日志、业务日志、业务表数据
实时数仓分层:技术缓冲层ITL、贴源模型层IOL、主体模型层IML、共性加工层ICL、应用集市层IDL
用户画像系统:用户标签作用、用户基础标签、用户标签计算
流批一体化:如何与离线数仓结合、支持批量OLAP处理、复用数仓元库
Scala2.13.5、Java、Sql、Shell、Spark3.1.1、Spark-core、Spark-Sql、Hadoop3.2.2、MapReduce、Item-CF、CPA、CPC、CPM、ECPM、用户画像、正负样本、流量切分、推荐系统、今日头条广告系统、广告物料创意与计划、互联网广告策略、Hive、Presto0.248、RowNumber、GID
从海量用户数据中基于用户的行为挖掘出相关性最高的物品,并考虑用户兴趣的时间窗口与多物品拥有者的降权处理。用于互联网广告推荐系统中智能推荐广告策略,通过用户的行为挖掘物品的相关性可以极大的提高个性化推荐系统的准确率从而提高细分流量上的广告收入,增加公司的流量变现能力。
常见应用案例:百度的音乐推荐、豆瓣的电影推荐、淘宝与京东的物品推荐
推荐系统:推荐系统介绍、个性化推荐系统就用场景、推荐系统评测指标、推荐系统冷启动、推荐算法选择、推荐系统覆盖率、推荐系统多样性、推荐系统新颖性、推荐系统惊喜度、推荐系统实时性、推荐系统长尾性
计算广告学:人群分类、流量切分、ctr 预估、cvr 预估、ECPM 计算、数据截断规则、离线试验数据选择、离线试验方法
物品相似度算法:离线结果评测、线上广告策略
今日头条分布式高并发
内容采集系统项目
今日头条内容智能识别
系统项目
CoolNiu商城实时数仓
系统项目
MPP架构-历史数据迁移项目
NLP自然语言处理系统项目
巨量数据采集引擎项目
SNS社交网络实时数仓系统项目
大数据云服务平台
海量历史数据高速查询项目
湖仓一体化项目
无大数据工作经验
无大数据课程研发能力
课时80%为Java开发
实训项目少
实训环境虚拟机
就业较难保证
大数据岗位难匹配
成长空间有限
金山软件大数据总监
金山云大数据架构师
华为大数据架构师
大数据课程已迭代到8.0
课时100%为大数据开发
实训项目紧跟大数据前沿技术
真正的企业级物理集群服务器
名企内推、合作企业直推
所学技术扎实过硬,企
业好评度高
项目满足企业需求,薪
资高,发展机会大
Java基本语法
流程控制语句
数组
面向对象
常用工具类
集合
IO流
多线程
网络编程
正则、反射、XML
IDEA常用设置、常用快捷键
代码自动格式化
自定义模板
Git集成
Lambda表达式
StreamAPI
Optional加强
接口的私有化
构造器引用
类型推断
堆栈结构
单向循环链表
双向非循环链表
双向循环链表
有序树
无序树
二叉树
红黑树
插入排序
冒泡排序
选择排序
快速排序
归并排序
二分查找
穷举算法
贪心算法
单线程WordCount
多线程WordCount
多进程网络通信
多机分布式WordCount
本阶段主要目的,让零基础小白从Java过渡到大数据做好前置准备,不仅可以掌握Java的常见知识外,还重点解了面向对象抽象思维、集合源码、数据结构,逐步提高小白由浅入深的学习能力,此外还可以从分布式运算原理案例入手让大家为大数据框架学习打好基础。
数据库三范式
事务隔离
DML语言、DDL语言、DCL语言
Group查询、Join查询、子查询、Union查询
Mysql数据库、表、视图
Mysql索引、分页、SQL优化技巧
MySQL存储过程
慢查询分析
使用JDBC完成数据库增删改查操作
JDBC的批量查询与插入
数据库连接池详解
Druid连接池的优化
SecureCRT使用
Linux权限管理
Shell基本命令
文档目录管理
用户与用户组管理
进程管理
软件管理
shell编程
Zookeeper详解、数据存储结构
选举机制
分布式锁实现
Zookeeper容错恢复
Hadoop企业级集群服务器规划
Hadoop集群硬盘与网络性能调优
源码编译
HDFS底层详解
HDFS的HA高可用详解
HDFS的常用命令
跨集群数据迁移
LZO、SNAPPY、GZIP文件压缩格式
Yarn底层详解、Yarn的HA高可用详解
资源调度器热加载
MapReduce案例详解
MapReduce调优
Combiner、Conunter组件详解
分布式缓存应用
MapReduce源码剖析
MapReduce任务工作链
Hive架构原理
Hive元库类型
Hive元库类型高可用
Hive的DML数据操作
Hive企业级调优
Hive分区与分桶
ORC、AVRO、PARQUET格式对比
Hive开发环境调试模式
HIve常用函数
HIve自定义函数企业级部署
本阶段主要目的,从Mysql -> Hadoop -> MapReduce -> Hive的学习过程,让学员理解小数据处理和大数据处理的区别,单点运算与分布式运算的区别,从而深入理解大数据分布式运算的优缺点。并以Hadoop框架为中心提高学员的实操能力,以Hive为中心提高学生SQL能力,为后面的数仓课程打好基础。
主流大数据平台CDH、CDP、TDH、FI HD、FI MRS性能对比
CDH、CDP大数据平台搭建
Kerberos安全认证详解
Ranger服务集成
数据仓库各领域应用
数据仓库分层设计
数据仓库分层设计
数据仓库存储策略
Hbase各组件详解
分布式数据库特点、列式存储特点、nosql数据库与关系数据库区别
Hbase集群模式安装、Hbase的yarn模式安装
Hbase的企业级集群配置
Hbase的企业级集群配置
Hbase的shell操作
Hive外表加载数据到Hbase,Hive卸载Hbase数据
Hbase读写风暴优化
Phoenix安装配置
Phoenix查询原理
Phoenix与hbase如何结合使用
DDL与DML支持、事务支持
JDBC驱动嵌入讲解
Phoenix优缺点
Lily Hbase Indexer架构
Lily Hbase Indexer实现Solr二级索引
批量与准实时建立Hbase数据Solr索引
Solr的Morphline任务
Solr webui使用
Hue中使用Solr
倒排索引原理
分布式搜索引擎
Kibana集成
Logstash集成
IK分词器集成
创建索引、管理索引、管理副本、管理分片
ES与Hadoop数据同步
Java操作ES
Impala原理
数据类型
存储类型
常用函数实操
性能调优实操
操作Hbase实操
kudu架构
Table分区策略
Kudu底层数据模型
Kudu随机读写
读写性能对比
Java api操作不同数据刷新策略
Kylin原理
OLAP概述
Kylin安装部署
Cube设计
预计算实操
对接报表系统实操
Kettle原理、Kettle组件特性
Kettle数据转换实操
Flume框架介绍
Flume数据简单清洗
Source、Channel、Sink讲解
NetCat源、Spooling Directory源、Exec源、Avro源
原理、适用场景、split-by参数配置、num-mappers配置
设置input、设置output、设置map、设置task number、工作流程
操作mysql、hive
关系型数据库数据导入HDFS、增量抽取数据到HDFS
Airflow调度
DolphinScheduler调度
国产化数据库兴起及MPP架构热度
GaussDB与其他MPP数据库性能对比
GaussDB与hadoop的对比
GaussDB物理架构、集群逻辑部署
GaussDB行存储、列存储、混合存储
GaussDB数据类型
gsql客户端
DDL语法实操、DML语法实操、DCL语法实操
GaussDB分布键原理、GaussDB分布键设计策
GaussDB复制表与分布表原理
GaussDB分区剪枝原理、GaussDB数据迁移方式
GaussDB Roach容灾原理
GaussDB分布式执行计划原理
GaussDB函数和操作符
GaussDB存储过程
存储过程实操、GaussDB调优实操
本阶段主要目的,结合企业案例深入理解数据治理的主要方法,并使用工具化方式让大数据的计算与存储变的简单高效,不仅查的快,算的也容易,在此阶段学员即可掌握进入大数据行业的技能,可选择以数仓工程师方式就业,或者为更高级的大数据开发打好基础。
Scala与JVM的关系、Scala与Java的对比、Scala与Python的对比
Windows的Scala安装、Linux的Scala安装
使用Maven管理Scala、Scala的SDK开发配置
Scala基础语法
高阶函数、柯里化、隐式转换
多线程与网络编程
Spark介绍
集群安装、Yarn模式集群使用
RDD原理
Spark常用Transformations算子
Spark常用Actions算子
Spark背压原理
Shuffle优化
算子调优
内存调优
Spark-core
Spark-sql
Spark操作hbase
Spark-streaming
Receive流与Direct流对比
集群安装
Consumer、Producer、Broker、Topic、Partition组件原理
Kafka的Java api操作
自动管理Offset、手机管理Offset
Kafka调优
Spark-streaming操作Offset到Zookeeper/Redis
Flink生态、Flink的发展与未来趋势
Flink的反压机制、Flink的DataFlow原理、Flink的状态编程
Local模式安装、Standalone模式安装、HA模式安装、yarn模式安装
TaskManger原理、JobManagers原理、Client原理
Scala/Java开发环境搭建
SourceFunction、ProcessFunction、SinkFunction、RichFunction、ProcessFunction
Operator算子编程
Connect、Union、KeyBy实现数据Join
State作用与原理、分布式Checkpoint原理、SavePoint原理
EventTime、IngestTime、ProcessingTime区别,Watermark原理
统计Windows、滚动Window、滑动Window、事件Window
TimeService实现自定义窗口
Flink-sql、CEP、异步IO
使用Flink CDC同步Mysql数据
Python脚本语言运行原理、与Java/Scala区别
Python基础语法、PyCharm开发工作安装与使用
Pip包管理
Python的分布式框架编写
Redis介绍、Redis应用场景
Redis单机模式、一致性hash原理、Redis集群模式
redis容灾、redis主备复制方案、redis读写分离方案
python操作redis、java操作redis、scala操作redis
ClickHouse的安装部署
读写机制
数据类型
执行引擎
微服务接口
SpringCloud负载均衡
本阶段主要目的,深入理解大数据生态不仅要查的快而且要算的快,并结合软件工程中的设计模式,让学员深入理解软件架构的组成为以后的职业生涯打好基础,在原有第三阶段学习具备就业能力的基础上提高学员的薪资水平。
本阶段主要目的,本阶段根据小、中、大的企业使用大数据的场景,全方位设计大数据项目,以项目为中心,以企业级大数据集群为平台,让学员迅速完成实战经验积累,加强对各大数据框架的认识,让学生有能力应对市面上各种类型公司的大数据需求。
本阶段主要目的,根据学员自身特点优化面试技巧,提炼面式过程中项目的技术关键点,并给予未来职业发展的建议,让学员在求职过程中过好面试关,工作过程中少踩坑,让学员有足够的信心应对未来的大数据技术之路。
电话:18613807937
地址:北京市大兴区芦花路1号院时代•智谷A座501
Copyright 2001-2022 海牛大数据 - 北京阳光海牛科技有限公司 版权所有
京ICP备17041118号现在就与学习导师聊一聊
18613807937