欢迎光临散文网 会员登陆 & 注册

转行学习大数据靠谱吗?

2023-08-10 17:24 作者:阳光海牛  | 我要投稿



年薪30万的大数据开发,了解一下?说实话,看到这样的信息时,你心不心动。

我有个学生第一次接触到大数据开发是看到他朋友发的一个朋友圈,毕业两年后学习了大数据开发,学完出来就拿到了年薪30万的offer!当即他就给朋友发了消息了解,问他为啥选择做大数据?然后朋友直接发给他一张北京大数据开发的平均工资,直接飙到3w!这谁看了不迷糊啊!

但我觉得大家就算知道这个是高薪行业,应该也不敢轻举妄动吧。大家应该都在疑惑这几个问题:“如果是做传统行业的能容易转行吗?”“不是计算机专业的能行吗?”“想做大数据,但是也不知道怎么学,学完了能进大厂拿高待遇吗?”

今天我告诉你们:技术上的学习是不难的,只要耐下性子学,就能学会理论知识。再加上一些实操经验,掌握理论就可以入门了。但是除了自己努力之外,还要报大数据开发的相关课程,这样才能高效率的实现入门并入行。

开始给大家专业分享之前,我先给大家放一个行业了解图鉴,以及学习范围及难易度,大家可以提前了解一下自己要不要进入大数据开发这行哈。大家添加下方微信就能获取进一步了解。


下面我就从为什么大数据开发门槛低,待遇高做一个简要的分析,以及为想入行的朋友们提供一些学习经验。

一、大数据开发真的门槛低,待遇高吗?


我个人认为这行的入行门槛其实是有的,并没有想象的那么低,但是最终也是看你个人能力。

任何一个高薪行业一定是有门槛的,要不然大家都挤到那一个行业好了。但是大家挤到一起时候你会发现它开始有行业门槛了。所以我觉得说门槛低,只能证明这个行业现在对人才的需求是供不应求的,在需要大量人才的时候,你会发现它的门槛是比较人性化的。

而行业人才短缺严重的时候,尤其这种中高端技术型人才,很多企业即便开出很高的工资也招不到人。所以就会产生大数据行业的研发人员工资确实相比其他较高,而且这几年还在不断提升。

大数据这个行业对于人才培养的周期其实是很长的,我们在接触和学习知识的时候也是用了很长时间的,才能达到一个获得高薪进大厂的机会,所以对各企业来说也算是万金求一人进厂的状态。

咱们现在经常说,大数据可真厉害啊,我的喜好、轨迹什么的大数据都能监测到。大数据呢其实是人工智能领域研发的重要支撑,人工智能的发展也让大数据行业不断推进,不论大数据还是人工智能都是目前的热点,所以目前大数据行业工资普遍比较高。



1.大数据开发学习全路径
2.往大数据方向发展,需要掌握的基本技能有:

一门基础编程语言,Java或者Python

Linux基本操作
3.与大数据开发相关的工具集:

Hadoop

HBase

Hive

Kafka

Spark

Sqoop/Flume/DolphinScheduler/Hue等

一些高阶技能能让你更进一步:

Kudu

Kylin

ClickHouse

Flink

看上去需要掌握的技能很多,但是只要找对了学习方法加上专业老师的指导,不管是零基础还是有一定编程基础的程序员,转型大数据都不是一件难事!


大数据开发学习顺序
第一阶段:

Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?

只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。

Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

第二阶段:
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。

Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念,听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。当然别怕处理这么大规模的数据,因为这是你的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。记住学到这里可以作为你学大数据的一个节点。

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

DolphinScheduler:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

第三阶段:

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

Flink:刚才都说用Kafka能让数据排上队了,那不得按队型给处理一波,怎么处理用Flink一个个处理啊,来一个算一个速度贼快,这就是常说的流式计算。另外Flink还有一些小绝招,比如:不用你操心有的数据掉队了怎么办,数据想聚在一起开个小会怎么办,数据队型非得有序怎么办,压力太大了怎么办,一不小心掉坑里了人家还能帮你恢复。另外还有各种骚操作什么序列化啊、排序啊、省内存啊甚至JVM怎么调优都通通帮你想好了。所以说吗有了它大数据也能算的飞快。另外你阿里爸爸给它买了,所以它以后是咱们中国人的。


第五阶段:

项目实操
项目一、CoolNiu商城ETL项目(初级入门)
项目二、CDP平台-商城数仓实践项目(重点推荐项目)
项目三、MPP架构-历史数据迁移项目(独家项目)
项目四、MPP架构-无线网络优化大数据平台项目(独家项目)
项目五、巨量数据采集引擎项目(重点推荐项目)
项目六、NLP自然语言处理系统项目(重点推荐项目)
项目七、SNS社交网络实时数仓系统项目(重点推荐项目)
项目八、计算广告学-物品相似度广告策略项目(高薪就业)


附上一张更详细的学习路线图,供大家参考



学习课程资料推荐

视频课程

说到视频课程,大家都会在网上找一些免费的学习资料进行学习,但是很多资料真的很鸡肋,不太适合新手小白学习。
而我的大数据课程,是非常适合小白零基础的学习。5个月时间,就能完成大数据转型。
课程内容从理论到源码,从源码到性能调优,从性能调优再到实践。还提供大数据学习过程中的硬件设备(集群服务器,这点是很多机构都没有的!)

面试资料

学完基础知识之后,想要拿到好的实习或者秋招offer是离不开面试的,并且面试其实是有一些前人的知识可以总结和沉淀的。
我这里给学员总结了一些大数据的笔记以及总结了面试常出现的知识点,包括你们到职场之后,在大数据这个领域摸爬滚打需要的基础知识,有需要的小伙伴也可以添加微信获取。


零基础自学大数据开发的小伙伴可以按照这个学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度。

如果大家有大数据开发的问题,可以随时私信交流,我会尽我所能为大家解答



转行学习大数据靠谱吗?的评论 (共 条)

分享到微博请遵守国家法律