全国信息技术人才培养工程-大数据分析师培训网
理论基础:
模块 内容大纲 分析员要求 分析师要求
大数据 大数据及大数据挑战的本质 了解 理解
大数据分析的特点 了解 理解
大数据分析的难点 了解 理解
数据科学 数据科学的基本术语 掌握 熟练掌握
数据科学的理论体系 了解 理解
数据科学的主要原则 掌握 熟练掌握
数据科学在大数据分析中的应用 了解 理解
大数据分析学 数据分析方法的发展现状 了解 理解
大数据分析学的基本理论 了解 理解
大数据分析的发展趋势 了解 理解
数据分析的类型 描述性分析的特点及常用方法 掌握 熟练掌握
探索性分析的特点及常用方法 掌握 熟练掌握
相关分析的特点及常用方法 掌握 熟练掌握
可视化分析的特点及常用方法 掌握 熟练掌握
规范性分析的特点及常用方法 不要求 掌握
预测性分析的特点及常用方法 不要求 掌握
诊断性分析的特点及常用方法 不要求 掌握
因果分析的特点及常用方法 不要求 掌握
大数据分析中的常见问题与陷阱 不要求 掌握
数据分析项目及项目管理 生命期 了解 掌握
主要活动 了解 掌握
项目管理 不要求 掌握
数据分析师(分析员) 主要职责 理解 理解
能力要求 理解 理解
流程与方法:
模块 内容大纲 分析员要求 分析师要求
预处理及数据准备方法 预处理与大数据分析的内在联系 了解 理解
常用数据审计方法 掌握 熟练掌握
常用数据清洗方法 掌握 熟练掌握
常用数据脱敏方法 掌握 熟练掌握
常用数据整齐化处理 掌握 熟练掌握
常用数据规约方法 掌握 熟练掌握
常用数据集成方法 掌握 熟练掌握
其他预处理方法 不要求 了解
统计分析方法 统计学在大数据分析中的应用 了解 理解
大数据时代统计分析方法的挑战与发展趋势 了解 理解
常用描述统计方法 掌握 熟练掌握
常用推断统计方法 掌握 熟练掌握
元分析方法 不要求 掌握
机器学习方法 机器学习在大数据分析中的应用 了解 理解
大数据时代机器学习方法的挑战与发展趋势 了解 理解
机器学习方法的主要类型 掌握 熟练掌握
常用机器学习算法 掌握 熟练掌握
可视化分析法 可视化分析方法在大数据分析中的应用 了解 理解
大数据时代可视化分析方法的挑战与发展趋势 了解 理解
数据可视化的方法论 掌握 熟练掌握
数据可视化主要模型 掌握 熟练掌握
视觉编码理论 了解 掌握
视觉假象 掌握 熟练掌握
其他方法 数据故事化描述 不要求 了解
人工智能 不要求 了解
数据挖掘 不要求 了解
技术与工具:
模块 内容大纲 分析员要求 分析师要求
基础平台 Windows及在图形界面中进行数据分析 掌握 熟练掌握
Linux及在命令行中进行数据分析 了解 掌握
数据计算 大数据分析中常用的数据计算技术 了解 掌握
云计算及其在大数据分析中的应用 了解 掌握
Hadoop 掌握 熟练掌握
Spark 不要求 掌握
其他数据计算技术 不要求 了解
数据管理 大数据分析中的常用数据管理技术 了解 掌握
新兴数据管理技术(NoSQL、NewSQL、关系云等)在大数据分析中的应用 了解 掌握
基于关系型数据库的大数据分析(如SQL Server、Oracle等) 掌握 熟练掌握
基于非关系型数据库的大数据分析(如Hive等) 掌握 熟练掌握
其他数据管理技术 不要求 了解
分析工具 大数据分析中常用分析工具 了解 掌握
数据分析开源工具(R、Python等) 了解 熟练掌握
数据分析商业工具(SPSS、SAS等) 了解 熟练掌握
Office数据分析功能(Excel等) 熟练掌握 熟练掌握
其他分析工具 不要求 了解
应用能力:
模块 内容大纲 分析员要求 分析师要求
数据准备 数据ETL方式及架构 了解 理解
数据爬虫原理及其分类 了解 掌握
利用主流框架完成数据爬虫的编写 掌握 熟练掌握
利用MapReduce框架完成数据清洗过程 掌握 熟练掌握
利用主流ETL工具完成数据清洗 了解 掌握
SPSS统计分析 SPSS 描述性统计分析 了解 掌握
SPSS 参数检验 了解 掌握
SPSS 方差分析 了解 掌握
SPSS 非参数检验 了解 掌握
SPSS 相关分析 了解 掌握
SPSS 回归分析 了解 掌握
SPSS 聚类分析 了解 掌握
SPSS 因子分析 了解 掌握
基于Linux的大数据分析 Linux的命令:常用命令的使用和练习 了解 掌握
Linux系统进程管理:包含ps、pkill、top、htop等的使用; 了解 掌握
VI、VIM编辑器:VI、VIM扥使用和常用快捷键 了解 掌握
Linux用户和组账户管理:用户的管理、组管理 了解 掌握
Linux系统文件权限管理:文件权限的操作 了解 掌握
Linux的RPM软件包管理:RPM安装、卸载等操作 了解 掌握
基于Hadoop的大数据分析 Hadoop操作:常用命令的使用等 掌握 熟练掌握
HDFS操作:HDFS Shell、HDFS Java API编程等 掌握 熟练掌握
MapReduce统计:求和、平均值、多表关联等 掌握 熟练掌握
MapReduce排序:分组排序、二次排序、倒排序索引等 掌握 熟练掌握
MapReduce算法:最优路径等 掌握 熟练掌握
HiveQL操作:库管理、表管理、分区表管理等 掌握 熟练掌握
Hive统计:个数统计、求和统计、去重统计、编离统计等 掌握 熟练掌握
HDFS文件操作:PUT、GET等 掌握 熟练掌握
Sqoop操作:Sqoop-import、Sqoop-export、Shell操作等 掌握 熟练掌握
基于Spark的大数据分析 Spark SQL分析:基础数据模型、从外部数据源加载数据、利用上丰富的API进行查询统计等 了解 熟练掌握
Sparklyr-Spark DataFrame读写操作 了解 熟练掌握
Sparklyr-dplyr包基本操作 了解 熟练掌握
Sparklyr-线性回归分析 不要求 熟练掌握
Sparklyr-K-means聚类 不要求 掌握
Sparklyr-逻辑回归 不要求 掌握
Sparklyr-主成分分析 不要求 掌握
Sparklyr-因子分析 不要求 掌握
Sparklyr-分类算法 不要求 掌握
Sparklyr-方差分析 不要求 掌握
基于R(或Python)的大数据分析 常用统计分析包及应用 了解 掌握
常用机器学习包及应用 了解 掌握
常用可视化方包及应用 了解 掌握
行业级应用 电商行业数据分析与应用:电商交易数据分析和统计等。 掌握 掌握
客户数据分析应用:用户画像的方法、维度分解和模型应用等。 不要求 掌握
产品数据分析应用:产品定位、产品设计阶段数据分析、产品运营数等。 不要求 掌握
营销数据分析应用:市场预测模型、价格模型、促销广告模型等。 不要求 掌握
供应链优化数据分析应用:大数据智能供应链、采购模型、生产模型、物流模型等。 不要求 掌握
金融行业数据分析应用:收益与风险数据分析应用等。 不要求 掌握