大数据培训_大数据开发培训_大数据培训机构

为什么学习大数据+数据智能？

大数据浪潮席卷全球，应用领域宽广，产业规模空前
就业口径宽广，价值堪比黄金石油，“钱途”无量

应用范围广

大数据时代，大数据几乎没有
行业限制

岗位天花板高

时代大趋势，未来前景好，职场
双渠道发展

岗位起薪高

大数据人才缺口大，人才薪资
待遇好

物流

医疗

科技

新能源

农业

工业

大数据
应用广泛

交通

医疗

教育

信用

传媒

金融

电信

P线

数据科学家

大数据研究员

大数据架构师

大数据专家

M线

CTO

数据总监

项目经理

大数据高级工程师

大数据中级工程师

大数据近年来薪资变化趋势

12.0K

2016年

18.4K

2017年

22.8K

2018年

21.9K

2019年

21.8K

2020年

24.9K

2021年

27.7K

2022年

此处数据来源职友集，样本选取截止日期为2023年3月23日，仅作内容展示，不作效果承诺

更多大数据行业前景

千锋大数据课程特色优势

主流核心技术

理论到实践，根据企业市场需求，聚焦数据仓库+数据开发，掌握核心技术

大厂实战项目

大厂实际业务场景与案例，大厂PB级项目 1:1 引进课堂，多类型联合项目，沉浸式学习

特色课程体系

实战项目贯穿教学过程，理论+实战+就业，一站式培养优秀人才

实战老师授课

千锋总监级导师授课，丰富实战及教学经验，实力助力学习

丰富学习资源

大厂授课平台，线上云实验环境、企业级数据集、项目案例、毕业设计案例等

未来职场赋能

老学员一次学习长期职场赋能，定期直播、论坛、讲座，多方位职场进阶

更多课程优势

大数据多元化课程满足不同学习需求

大数据面授班

大数据时代开启职场新起点

从0到1，小白到精英，入门+进阶课程

理论+实战深入技术源码

学前+学习+生活+求职+职后”一站式服务

全国20+校区分布，可就近学习

学完能找到什么工作

大数据职后课

跟随时代脚步未来职场加油站

职场人拓展技术栈，增加职场核心竞争力

数据"采、传、存、算、用、管"企业高频技术

有技术经验者转型、突破职场瓶颈

随时随地碎片化时间学

课程要学多久

四大核心阶段系统掌握实用技能

第一阶段 Java SE编程 & MySQL+Java EE开发（1-6周）

Java编程与MySQL关系型数据库编程是大数据根基，正所谓“根基不牢，地动山摇”。

本阶段可以说是大数据研发人员不可或缺的一部分，内容涵盖基础理论、实践操作、综合练习及项目等，专注于Java SE编程、MySQL关系型数据库、JDBC、Maven、Git和SpringBoot等核心技术，为大数据的深入学习打下坚实根基。

0基础

入门，易学习，上手快

200+

核心知识点

10+

真场景实战及解决方案

100+

高频面试点

核心技术（部分）

Java 基础语法、Java面向对象、常用类、异常、集合、Java多线程、IO、MySQL+JDBC、Maven、Git、SpringBoot

学完收获

1 掌握Java编程语法与规范、面向对象及相关实践

2 掌握Java常用数据结构、常用类和异常等

3 掌握多线程、数据流、并发和IO操作

4 掌握MySQL相关SQL编写操作和JDBC

5 掌握企业级SprigBoot与Java EE开发工具等

第二阶段 Hadoop生态技术 & 数据仓库开发（7-12周）

Hadoop生态技术与数据仓库开发堪称大数据鼻祖，占据企业大数据研发半壁江山。

本阶段理论结合实践，专注数据仓库及周边，覆盖Linux、Shell、Zookeeper、Hadoop、Hive、Hue、DBeaver、Kettle、Superset、FineBI、DataX、Flume、DolphinScheduler、数据仓库方法论等核心技术及企业级离线数据仓库项目实践。助力从0到1掌握大数据硬技术，直击企业大数据所需。

数据仓库

着重SQL，辅助代码

10+

真场景实战项目教学

50+

大厂顾问，复刻企业真实场景

500+

核心技能，攻略企业技术栈

核心技术（部分）

Linux操作系统、Shell脚本编程、Zookeeper、Hadoop生态技术、Hive、Hue、Kettle、FineBI && FineReport、Superset、BI分析与可视化项目、DataX、Flume、DolphinScheduler、数据仓库技术、离线数据仓库项目、基于ODPS电商数据仓库项目、自研数据仓库项目

学完收获

1 掌握数据Hadoop生态相关技术及实践

2 掌握数据仓库ETL工具实践与性能调优

3 掌握数据分析与可视化工具的应用

4 掌握数据仓库方法论、建设流程和规范

5 掌握企业级数据仓库实施流程及问题与解决方案

第三阶段 Spark生态技术 & 企业级项目开发（13-18周）

Java编程与MySQL关系型数据库编程是大数据根基，正所谓“根基不牢，地动山摇”。

本阶段可以说是大数据研发人员不可或缺的一部分，内容涵盖基础理论、实践操作、综合练习及项目等，专注于Java SE编程、MySQL关系型数据库、JDBC、Maven、Git和SpringBoot等核心技术，为大数据的深入学习打下坚实根基。

专注Spark

原理及代码研发

强化SQL

编程能力

200+

大厂解决方案

企业级

项目实战，手把手带你学

核心技术（部分）

Scala高级编程、Kafka、Redis、ClickHouse、SparkCore核心、SparkSQL、Structured Streaming、趣头条准实时数据仓库工程实践、趣头条用户画像工程实践、企业级推荐系统工程实践

学完收获

1 掌握Scala高级编程技能，涵Scala面向对象、方法函数、模式匹配和隐式转换等

2 掌握Spark Core相关核心概念和操作实践

3 掌握SparkSQL数据抽象、SQL编写、函数应用和执行流程与优化

4 掌握Kafka、Redis和ClickHouse等相关工具概念及应用

5 掌握企业级大数据用户画像和推荐系统等项目开发

第四阶段 Flink批流一体技术 & 实时数据开发（19-20周）

Flink批流一体生态技术与实时数据开发是大数据当前流行和较为成熟的技术，应用场景增多，企业要求不断提高。

本阶段内容契合市场需求，覆盖Flink、FlinkSQL、Canal、Maxwell、CDC、实时数据仓库和基于阿里云的Flink等核心技能，同时也包含实时数据开发和实时数仓开发实战。助力学员全面掌握大数据实时研发技术生态，直达企业级大数据全栈工程师。

专注大数据

实时研发技术Flink及生态

加强SQL

解决企业级实时需求

大厂顾问

联合共研，直击企业所需

100+企业级

高频实时技术问题

核心技术（部分）

Flink批流技术、Canal、maxwell、FlinkSQL编程、基于阿里云大数据实时项目、实时数据仓库项目、高频面试题、简历制作

学完收获

1 掌握Flink批流一体核心技术概念与实践

2 掌握实时数据采集工具Canal和Maxwell原理与应用

3 掌握Flink SQL数据类型、连接器、函数、CDC与Hive整合等

4 掌握基于原生和商业Flink的实时数据开发

一键查看详细课程大纲

课程全新升级重构业务知识体系

覆盖场景
更广全

企业级项目与自研项目结合

1:1还原大厂实际业务场景，数据仓库类项目为主，数据开发类项目为辅，自研企业项目，锤炼企业开发实战能力。

自研企业级数据仓库项目

企业级推荐系统

数据分析与可视化项目

实时数据仓库项目

用户画像工程实践

符合
主流趋势

与一线大厂共研主流技术

企业主流应用技术体系，开源与商业环境共用，理论辅助实践，强化场景应用与优化。

Hadoop、Spark和Flink生态及优化

Hive、SparkSQL、Kettle和数据仓库方法论

FineBI和Superset数据分析与可视化体系

DolphinScheduler企业级任务调度

兼具
深度广度

大数据技术生态源码深入

直击Hadoop、Spark和Flink等生态技术源码，深入剖析运行原理和性能调优。

HDFS存储、Checkpoint和MapReduce执行流程源码

Hive运行源码、DataX任务切分源码

Spark提交和SQL执行流程源码

沉浸式
实战

企业级项目与自研项目结合

企业级大数据云服务与环境实践，云主机、云数据库、大数据云服务与部署等，直击企业所需。

ECS云主机

云数据库实践

云上大数据服务

了解升级课程

引进大厂项目在实战中夯实大数据技能

专注大数据中、高阶工程师技能

多学科协作

覆盖前端、中台、后台全流程，精进高难度大型项目实战能力

跨平台实施

项目交叉融合PC端、移动端、智能端，各平台功能实现

真场景实操

还原企业真实开发场景，学实用核心技术

全流程参与

项目交叉融合PC端、移动端、智能端，各平台功能实现

高标准验收

覆超高验收标准，确保项目无BUG，流畅运行

数据
仓库

团队
协作能力

核心
竞争力

落地
实践

沟通
表达能力

多场景
实战

职场
赋能

企业业务
解决方案

理论
+实践

源码
深入

数据
开发

电商离线数据仓库

基于ODPS离线数据仓库

云学习平台用户画像（三选一）

电商平台自研项目（三选一）

问答大数据平台

企业级工程推荐系统

电商离线数据仓库

离线数据仓库是大数据中的一个基础性项目，几乎有数据的企业都需要的一个项目。离线数仓有很多实现方式，项目主要基于：DataX、Hadoop、Flume、Hive、Spark、DolphinScheudler、Python、Shell等技术搭建。整个项目包括商城数据同步、数仓分层、数据清洗、数据ETL和数据可视化应用等。

技术架构

MySQL+Hadoop+DataX+Flume+Hive+Spark+DolphinScheudler+Python+Shell+Superset等

项目职责

1.基于电商的业务数据需求分析和指标体系建立
2.原始数据(业务数据和日志数据)探索
3.用户、商品、订单、订单详情、订单支付、收获地址、供应商、时间维度、地区维度等相关业务数据全量和增量同步
4.业务数据同步任务开发、上线、测试及数据同步问题的数据补跑
5.用户浏览、点击、交互、启动、安装、滑动、输入和搜索等相关行为数据采集和任务上线运行
6.广告投放外部数据采集和任务上线运行
7.用户、订单、交易、营销等主题的DWD、DWS和ADS层开发
8.维度层数据加工与开发处理
9.ADS层数据导出到MySQL，配置相关任务，上线运行
10.使用Superset BI可视化工具实现各个主题报表配置、看板配置与看板发布

基于ODPS离线数据仓库

当前，一站式商业大数据服务繁多，ODPS采用抽象的作业处理框架将不同场景的各种计算任务统一在同一个平台之上，共享安全、存储、数据管理和资源调度，将不同用户需求的各种数据处理任务提供统一的编程接口和界面。基于ODPS的电商大数据是将电商相关用户、订单、交易、营销、商品、店铺和活动等业务数据和用户行为数据进行集成、转换和分析等处理，最终使用QuickBI进行BI报表展示和挖掘其它价值，辅助运营，实现商城健康发展。

技术架构

ECS、RDS、DataHub、MaxCompute、DataWorks、QuickBI

项目职责

1 部署一站式ODPS大数据环境
2 探索商城多种C端、B端和物流端等业务与数据，梳理相关业务指标体系
3 ODS层建立对应模型，应用ODPS的数据集成模块，将业务数据同步至ODS层
4 DWD和DIM层数据建模，将ODS层数据加工处理到DWD和DIM层
5 构建DWS层用户行为、商品、购物车和订单等宽表模型，并将DWD层数据加工到对应的宽表
6 ADS面向应用构建需求模型，将DWS层的数据再次加工到ADS层各个表中
7 使用QuickBI制作数据报表与可视化看板操作
8 数据质量监控开发和数据权限控制设置

云学习平台用户画像（三选一）

学习平台用户画像是基于学习平台数据仓库之上的项目，即需要先搭建学习平台的数据仓库，然后基于数据仓库，再扩展用户、课程等画像标签体系。本项目使用 Hadoop、Hive、Spark、DolphinScheudler、Hue 等技术构建，主要解决画像标签计算，实现标签设计、人群定位和用户精细化运营等。

技术架构

Hadoop、Hive、Spark、DolphinScheudler、Hue、Shell

项目职责

1 用户和课程标签体系建设
2 ID-Mapping打通
3 用户基础标签与聚合标签模型构建与加工
4 物品基础标签与聚合标签的模型构建与加工等
5 画像标签落盘与维护
6 画像标签的应用与服务

电商平台自研项目（三选一）

随着互联网发展，电商累积了订单、用户、流量等各类数据，但数据分散在各个业务系统中，随着业务发展，新主题模型不断产生，数据量不断增加，如何管理各类主题模型以及海量数据，需要对数据仓库进行科学架构。另外，数据仓库是数据挖掘技术的关键和基础，良好的数仓结构能够帮助用户快速理解现有数据能力，并且在当前信息基础上，对未来企业状况做出预测。

技术架构

MySQL、Kafka、Hadoop、Hive、Spark、ClickHouse、Superset、Hue、DolphinScheduler 或采用阿里云大数据服务

项目职责

1 电商业务需求讨论与评审
2 业务评审、架构评审和技术评审
3 电商相关指标体系，用户、订单、交易和商品等主题划分
4 相关类别、地域和品牌等维度层数据加工，数据仓库各层模型构建
5 电商业务数据同步和指标计算的任务排期、任务测试与上线部署
6 使用BI工具进行主题数据报表和看板制作与发布
7 企业级大屏数据抽取、加工、推送、露出全流程数据加工流转方式

问答大数据平台

问答系统近些年发展迅猛，尤其最近ChatGPT类及似产品流行，这将会积累海量问、答和互动数据，需要运用大数据技术进行数据加工、处理和分析，从而回馈用户更佳的答案，保持问和答等核心模块健康良好发展。

技术架构

MySQL、Kafka、Hadoop、Hive、Spark、ClickHouse、SuperSet、Hue、DolphinScheduler 等

项目职责

1 问答系统业务需求讨论与评审
2 问答系统数据仓库架构构建
3 问答系统相关指标体系，用户、问答和互动等主题划分及各层模型建设
4 业务数据和行为数据的同步与采集
5 用户、问答、互动和行为相关指标的计算
6 使用可视化工具对相关指标和数据进行展示
7 相关任务调度与上线配置

企业级工程推荐系统

推荐系统企业工程实战项目作为大数据基础应用的延伸，构建于用户画像项目之上，旨在让学员学习企业级推荐系统构建的基本思路，深入讲解推荐系统中的两个最重要的环节召回和排序，各环节基于Spark-Mllib引入相关算法，比如召回层ItemCF,ALS两路召回算法，融合排序层引入GBDT+LR，在理解算法的同时更偏重工程实战，我们会从原始数据的特征抽取，转换，算法模型设计到编程实现做深入的讲解，同时也会对算法模型的跨平台部署方案做实际的案例，让学员学习到算法模型是如何在实际工程中部署运用的。

技术架构

本项目工程组件： Spark MLlib + SpringBoot + Redis +HBase+ Milvus
本项目涉及算法: Word2Vec + ItemCF+ALS+GBDT+LR+BloomFilter
监控架构依然采用：Prometheus + Grafana + IM
本项目的组件监控：推荐API+HBase[Metric]+Prometheus + Grafana +Supervisor+ IM

项目职责

1 项目协同过滤模型
2 基于ItemCF模型的召回，将召回的特征数据桶方式存储HBase中
3 基于ALS模型的召回，将召回的特征数据以HBase的桶方式装载到HBase中
4 物品的基础特征向量加工和存储HBase
5 用户基础特征向量加工处理与存储HBase
6 物品和用户嵌入向量的加工处理与存储HBase
7 推荐系统排序阶段解析，LR和GBDT模型构建、训练和测试
8 PMML跨平台构建，Jpmml-SparkML的源码研发，实现自定义Transformer，PMML模型文件保存
9 多路召回模型特征向量进行Union，并存储HBase中
10 PMML模型文件加载，应用线上数据，对外开发推荐服务API
11 基于Promethuse和Grafana架构的推荐API服务监控

查看更多项目

导师一点胜庸师百言

千锋好程序员师资筛选自干锋百人教研团队及
互联网一线大厂核心技术人才，5维严选录取率仅1%

免费学习大数据视频课程

立即学习