第一阶段:大数据技术入门
1大数据入门:介绍当前流行大数据技术,数据技术原理,并介绍其思想,介绍大数据技术培训课程,概要介绍。
2Linux大数据必备:介绍Lniux常见版本,VMware虚拟机安装Linux系统,虚拟机网络配置,文件基本命令操作,远程连接工具使用,用户和组创建,删除,更改和授权,文件/目录创建,删除,移动,拷贝重命名,编辑器基本使用,文件常用操作,磁盘基本管理命令,内存使用监控命令,软件安装方式,介绍LinuxShell的变量,控制,循环基本语法,LinuxCrontab定时任务使用,对Lniux基础知识,进行阶段性实战训练,这个过程需要动手操作,将理论付诸实践。
3CM&CDHHadoop的Cloudera版:包含Hadoop,HBase,Hiva,Spark,Flume等,介绍CM的安装,CDH的安装,配置,等等。
第二阶段:海量数据高级分析语言
Scala是一门多范式的编程语言,类似于java,设计的初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程的多种特性,介绍其优略势,基础语句,语法和用法, 介绍Scala的函数,函数按名称调用,使用命名参数函数,函数使用可变参数,递归函数,默认参数值,高阶函数,嵌套函数,匿名函数,部分应用函数,柯里函数,闭包,需要进行动手的操作。
第三阶段:海量数据存储分布式存储
1HadoopHDFS分布式存储:HDFS是Hadoop的分布式文件存储系统,是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,介绍其的入门基础知识,深入剖析。
2HBase分布式存储:HBase-HadoopDatabase是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可在廉价PC上搭建起大规模结构化存储集群,介绍其入门的基础知识,以及设计原则,需实际操作才能熟练。
第四阶段:海量数据分析分布式计算
1HadoopMapReduce分布式计算:是一种编程模型,用于打过莫数据集的并行运算。
2Hiva数据挖掘:对其进行概要性简介,数据定义,创建,修改,删除等操作。
3Spare分布式计算:Spare是类MapReduce的通用并行框架。
第五阶段:考试
1技术前瞻:对全球最新的大数据技术进行简介。
2考前辅导:自主选择报考工信部考试,对通过者发放工信部大数据技能认证书。
上面的内容包含了大数据学习的所有的课程,所以,如果有想学大数据的可以从这方面下手,慢慢的了解大数据。
第一方面是数学基础,第二方面是统计学基础,第三方面是计算机基础。要想在数据分析的道路上走得更远,一定要注重数学和统计学的学习。数据分析说到底就是寻找数据背后的规律,而寻找规律就需要具备算法的设计能力,所以数学和统计学对于数据分析是非常重要的。
而想要快速成为数据分析师,则可以从计算机知识开始学起,具体点就是从数据分析工具开始学起,然后在学习工具使用过程中,辅助算法以及行业致死的学习。学习数据分析工具往往从Excel工具开始学起,Excel是目前职场人比较常用的数据分析工具,通常在面对10万条以内的结构化数据时,Excel还是能够胜任的。对于大部分职场人来说,掌握Excel的数据分析功能能够应付大部分常见的数据分析场景。
在掌握Excel之后,接下来就应该进一步学习数据库的相关知识了,可以从关系型数据库开始学起,重点在于Sql语言。掌握数据库之后,数据分析能力会有一个较大幅度的提升,能够分析的数据量也会有明显的提升。如果采用数据库和BI工具进行结合,那么数据分析的结果会更加丰富,同时也会有一个比较直观的呈现界面。
数据分析的最后一步就需要学习编程语言了,目前学习Python语言是个不错的选择,Python语言在大数据分析领域有比较广泛的使用,而且Python语言自身比较简单易学,即使没有编程基础的人也能够学得会。通过Python来采用机器学习的方式实现数据分析是当前比较流行的数据分析方式。
兴趣是第一老师。选择学习一门课程和技能时,个人兴趣是至关重要,对于学习像大数据这样抽象的技能更是如此。
学习Java语言和Linux操作系统,这两个是学习大数据的基础。
最关键的是学习Hadoop+spark,掌握大数据的收集、生成、调用工具。
树立大数据思维,创造性开发、使用大数据。
深度了解大数据的意义、价值、市场、开发及运用前景。
到大数据管理中心、运用企业实习实践,掌握开发、运用技能。