CoolNiu商城行为日志、业务日志与实体表作为数据源;经过ETL加工与数据抽取后入仓,数仓采用hive+kudu混合模式,支持高吞吐与随机读写需求,数据仓库进行数据逻辑加工处理,主题模型划分,数据汇总加工,数据集市对外供数;数据集市对接报表系统;kylin对接数据仓库,联机分析处理,实现即席查询,毫秒级响应;hbase存储用户标签数据,结合es二级索引对外提供组合查询,实现亿级数据毫秒级查询响应;airflow实现T+N任务调度;
项目目标:应用装机数据库迁移,hadoop集群迁移至GaussDB 200数据库中,采用MPP架构建仓。实施方案:hive卸数,GaussDB加载数据到缓冲层、缓冲层加载到贴源层、主题层数据摆放、汇总层数据汇总、集市层数据加工、数据校验。
项目设计:收集基站测量报告,转换清洗入仓,采用MPP架构数仓,按数据主题摆放,数据集市加工各项kpi指标,关联基站工参信息与测量报告分析用户业务质量,分析基站网络覆盖情况、分析网络负载情况、分析区域用户数、OLAP联机分析系统实时查询、用户画像管理、报表展示。
项目设计:用Python实现一套可以爬取海量数据的多机并发框架并将数据存储到 HDFS 与 kafka 分布式消息队列中以实现海量数据爬取与大数据集群储存的无缝对接
项目设计:通过大数据处理结合算法识别方式快速的从海量无规则的网页数据中获取有价值的内容信息,与传统模式相比可以极大的节省开发成本与人力资源成本。并能轻松应对持续的内容与数据增长。常见的应用案例有:搜索引擎的网页数据获取、今日头条等新闻客户端的聚合新闻、文本语义与热词分析
项目设计:对SNS社交网络提供实时数据支持,用大数据的实时技术对数据做实时的数据处理,以达到数据快速的进入数仓各层,最终快速的触发产品线业务,做企业数据原始到结果的中间流水线。让相关人员实时的看到点击率、转化率、用户留存、复购率、日活用户、月活用户、新增用户、地区热点、话题热点、流量来源等指标,帮助其及时的对业务做出正确的调整。并结合数据中台理念对用户进行实时标签分类,让用户数据快速的进入用户画像系统,以便广告系统做精准流量切分
项目设计:从海量用户数据中基于用户的行为挖掘出相关性最高的物品,并考虑用户兴趣的时间窗口与多物品拥有者的降权处理。用于互联网广告推荐系统中智能推荐广告策略,通过用户的行为挖掘物品的相关性可以极大的提高个性化推荐系统的准确率从而提高细分流量上的广告收入,增加公司的流量变现能力。常见应用案例:百度的音乐推荐、豆瓣的电影推荐、淘宝与京东的物品推荐