大数据如何入门

第1个回答 2017-09-21

恩恩，大数据基础入门的java，linux，mysql这三个，这三个学的差不多了的话才能进行更深入的大数据方面的学习的，Hadoop等。柠檬学院大数据。

第2个回答 2021-04-09

大数据前景是很不错的，像大数据这样的专业还是一线城市比较好，师资力量跟得上、就业的薪资也是可观的，学大数据面授班的时间大约半年，学大数据可以按照路线图的顺序，

学大数据关键是找到靠谱的大数据培训机构，你可以深度了解机构的口碑情况，问问周围知道这家机构的人，除了口碑再了解机构的以下几方面：

1. 师资力量雄厚

要想有1+1>2的实际效果，很关键的一点是师资队伍，你接下来无论是找个工作还是工作中出任哪些的人物角色，都越来越爱你本身的技术专业大数据技术性，也许的技术专业大数据技术性则绝大多数来自你的技术专业大数据教师，一个好的大数据培训机构必须具备雄厚的师资力量。

2. 就业保障完善

实现1+1>2效果的关键在于能够为你提供良好的发展平台，即能够为你提供良好的就业保障，让学员能够学到实在实在的知识，并向大数据学员提供一对一的就业指导，确保学员找到自己的心理工作。

3. 学费性价比高

一个好的大数据培训机构肯定能给你带来1+1>2的效果，如果你在一个由专业的大数据教师领导并由大数据培训机构自己提供的平台上工作，你将获得比以往更多的投资。

希望你早日学有所成。

第3个回答 2020-12-12

大数据工程师，众所周知，在没有大数据以前，行业应用已经非常成熟了，最早大家只关注功能的实现，接着重视前台的界面，前端工程师因此火了一段时间，因为以前数据量不大，所以在功能上并不重视，由于移动互联网的发展，数据量非常庞大了，这个时候单机服务器不能解决问题，那么分布式集群就出现了，大数据工程师的职责就是搭建大数据平台，所以从上图可以得知，大数据工程师，需要有java基础（行业应用大部分是java语言编写的），所以，今后想从事该岗位的，那么学习的路线图如下

java基础----linux----hadoop-----hive、hbase----scala---spark

算法工程师，该岗位零基础的小伙伴就请止步吧，更适用于数学专业的研究生及以上学历，对数据基础要求比较高。

数据挖掘工程师，建议从python入手，毕竟python里面有大量的数据科学的包，也有pyspark，直接从spark里面调数据，不用学习Scala语言（spark的编程语言是Scala），学习的路线如下：

python基础—python web（强化编程基础）--数学基础补充（线性代数、概率统计、离散数学）--python numpy pandas包---机器学习算法---深度学习

数据分析师，该岗位对数学基础要求不高，但对综合素质要求非常高，能充分的理解行业行情、公司运营、产品运作、对市场敏锐度较高。具备一定的编程基础，建议学习python，能熟练使用相关的工具，如excel，sas、spss等，能写漂亮的文章做PPT就行，数学基础不好的女生可以建议走该方向。

学习路线：python基础—python numpy pandas包---excel—spss---sas

大数据可视化，该岗位需要前端的相关基础，大数据运维工程师，也不多做介绍了。

根据以上的岗位介绍，对自己做一个整体的规划

个人是建议从大数据工程师入手，从java基础开始学，毕竟编程基础是每个岗位都需要的，而且java的适用面是最广的，虽然现在python的势头很足，但相对java来说，python比较简单，只要java能熟练使用了，要学会python，两周的时间就没问题，从长远的职业规划来说，学习没有速成的方法，脚踏实地才是最重要的。

我这有大数据工程师详细的学习的计划，分享给大家，希望对你们有帮助。

第一阶段：静态网页基础（HTML+CSS）

难易程度：一颗星

主要技术包括：html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

第二阶段：JavaSE+JavaWeb

难易程度：两颗星

主要技术包括：java基础语法、java面向对象（类、对象、封装、继承、多态、

抽象类、接口、常见类、内部类、常见修饰符等）、异常、集合、文件、IO、

MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)

JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

第三阶段：前端框架

难易程序：两星

主要技术包括：JavaScript、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

第四阶段：企业级开发框架

难易程序：三颗星

主要技术包括：Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity，爬虫技术nutch,lucene，webService CXF、Tomcat集群和热备、MySQL读写分离

第五阶段：初识大数据

难易程度：三颗星

主要技术包括：大数据前篇（什么是大数据，应用场景，如何学习大数据库，虚拟机概念和安装等）、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程（SHELL变量、循环控制、应用）、Hadoop入门（Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop）、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化，COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

第六阶段：大数据数据库

难易程度：四颗星

主要技术包括：Hive入门（Hive简介、Hive使用场景、环境搭建、架构说明、工作机制）、Hive Shell编程（建表、查询语句、分区与分桶、索引管理和视图）、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块（REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成）、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

第七阶段：实时数据采集

难易程序：四颗星

主要技术包括：Flume日志采集，KAFKA入门（消息队列、应用场景、集群搭建）、KAFKA详解（分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试）、KAFKA高级使用（java开发、主要配置、优化项目）、数据可视化（图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图）、STORM入门（设计思想、应用场景、处理过程、集群安装）、STROM开发（STROM MVN开发、编写STORM本地程序）、STORM进阶（java开发、主要配置、优化项目）、KAFKA异步发送与批量发送时效，KAFKA全局消息有序，STORM多并发优化

第八阶段：SPARK数据分析

难易程序：五颗星

主要技术包括：SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用（高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等）、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶（DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型）、SPARK高级编程（Spark-GraphX、Spark-Mllib机器学习）、SPARK高级应用（系统架构、主要配置和性能优化、故障与阶段恢复）、SPARK ML KMEANS算法，SCALA 隐式转化高级特性

希望对您有所帮助！~

第4个回答 2020-11-03

整体化的学习可以看一下cda数据分析师哈~如果是入门的话可以参考以下知识点：
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。
Hadoop里面包括几个组件HDFS、MapReduce和YARN, HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，
MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。
它一般用来存放- -些相互协作的信息，这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖，
对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysq|数据库,因为一会装hive的时候要用到，
mysq|需要掌握到什么层度那?你能在Linux 上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。
这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

第5个回答 2019-05-31

大数据需要学习：

第一阶段： Java开发·

第二阶段：大数据基础·

第三阶段： Hadoop生态体系·

第四阶段： Spark生态系统·

第五阶段：项目实战

在学习大数据之前是要把Java搞清楚，建议学习这三部分内容：

1、Java基础。掌握面向对象的开发过程，清晰封装、继承、多态以及掌握多线程的创建。

2、Java操作数据库。掌握数据库知识以及如何使用Java完成数据库操作对学习大数据非常重要。

3、Java Web开发。重点内容，很多大数据落地应用都采用Java Web技术来呈现。

完成以上内容的学习之后，下一步就是搭建Hadoop及Spark平台，然后在平台上使用Java完成一系列功能的实现。这部分内容比较多，需要较长的时间来学习，建议找个老老师带你吧。