从金融行业转型大数据,一路学习点滴的分享!

简介: 大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。

大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。

本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。

开始

我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融大厂(杭州)实习。

我所在的部门是最挣钱的部门--资管,我们的系统覆盖了全部的金融业务,除了保险业务。每天完成正常的任务之后,也学了很多金融的业务,在这里奉劝大家不懂股票的小白,千万不要入市。这个行业,水太深了。具体的东西就不说了。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:522189307   欢迎进阶中和进想深入大数据的小伙伴加入。

转折

虽然金融行业薪水可观,但是限于技术老套,甚至还在使用 delphi。做了一段时间之后,发现不适合自己,由于就有了离职的想法。去年经济大形势不大好,于是也不敢轻易裸辞。此时的心情是:不甘心就这样下去。

当时还不确定之后要走什么方向,看我公众号的改名记录就知道了,但是脑子真的一团糟!


2018 的 3 月 5 号,我给自己定了一个 Flag,下面是在码农翻身的知识星球里面发的半年目标。此时斗志满满。

webp

事实证明,四个月业余时间学大数据是不够的,坚持下来,时间超出了预期。Hadoop 生态 和 Spark 生态以及数据仓库,数据建模,机器学习等等。有些资料来自于网上,还有来自一些教育机构的资料,剩下的可以从官网上找到文档。

webp

看完了《大型网站架构》、《深入理解Java虚拟机》这两本书,《图解HTTP》耽搁下了。毕业旅行也带女朋友去了,只不过没去四川,去了北京,天津,济南和青岛。

关于大数据方面的书籍,我看了《离线和实时大数据开发实战》、《数据仓库结构设计与实施》、《Spark技术内幕》、《推荐系统实践》。挑重点部分看的,结合自己学的技术进行消化。

这个过程中,我听得最多的是 Beyond 的歌。坚持不下的时候就打开音乐,听一会再接着学。日日夜夜,也曾怀疑自己。

webp

成长

直到目前,写的文章数量不是很多,等到达一定里程碑的时候,我会专门整理成一系列目录的。目前的文章,暂且列一下:

简述大数据技术

什么是数据仓库?谈谈我的理解

PageRank 算法,搜索引擎的关键技术

Sqoop 不完全实战

Flume 原理,分析,架构

kafka 简介、架构、安装

Kafka 遇上 Spark Streaming

Kafka 的数据丢失和重复消费

HBase 架构分析

HBase RowKey 设计

HBase 数据模型,体系架构,组件功能说明等总结

Hbase 在微博中的表设计,部分

Zookeeper 的恢复模式,广播模式,选举流程

Hadoop HA 深度解剖

Spark 调优整合篇-汇总(长文)

Spark 的 数据本地化,提供最佳的计算节点,终于入门了

Spark 调优一瞥 | shuffle 调优

Spark 的 shuffle 文件寻址流程

从收集数据,集群分析数据,BI展示

Flink 干货来袭 | Flink Forward China 2018 大会资料整理

上面是 2018 年忙里偷闲写的 20 篇关于大数据技术的文章。

webp

New Flag

2019 我也给自己定下了几个目标,其中一个就是更新数量以及频率要提上去。每篇文章尽量短而有用,给大家把大数据讲清楚,这个任重而道远啊。

webp

2018 年,转折。2019 年,蜕变。

三个原则:自我激励,自我认知,自我驱动。

加入合适的圈子,比如「码农翻身」、「帅张和他的朋友们」。


离开舒适区,不能回避痛苦。

刚来上海一周,面试了两家公司。有一个给了 offer,年薪 23 w 对于刚毕业的我来说,比之前的金融岗位少,不过可以接受。那个公司我挺喜欢的,自身发展空间大一些。数据平台要从头开始创建,部门整合为中台大数据部门。

目前我还没有入职,打算继续面试。

未来的计划,「坚持」、「用心」完成每一篇文章,能帮到大家最好了。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 JSON 大数据
大数据离线数仓---金融审批数仓
大数据离线数仓---金融审批数仓
118 1
|
6月前
|
SQL 资源调度 数据库
数仓学习---14、大数据技术之DolphinScheduler
数仓学习---14、大数据技术之DolphinScheduler
|
7月前
|
分布式计算 Hadoop 大数据
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
|
7月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
|
7月前
|
分布式计算 Hadoop 大数据
Hadoop学习:深入解析MapReduce的大数据魔力(三)
Hadoop学习:深入解析MapReduce的大数据魔力(三)
|
6月前
|
SQL NoSQL Java
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
|
6月前
|
人工智能 搜索推荐 数据可视化
电子学习中的大数据分析:每个人都应该知道的这些方面
电子学习中的大数据分析:每个人都应该知道的这些方面
|
1月前
|
存储 关系型数据库 测试技术
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
33 4
|
1月前
|
存储 SQL 关系型数据库
【MySQL 数据库】6、一篇文章学习【索引知识】,提高大数据量的查询效率【文末送书】
【MySQL 数据库】6、一篇文章学习【索引知识】,提高大数据量的查询效率【文末送书】
56 0
|
7月前
|
存储 分布式计算 Hadoop
Hadoop学习:深入解析MapReduce的大数据魔力(二)
Hadoop学习:深入解析MapReduce的大数据魔力(二)