1. 聚能聊>
  2. 话题详情

《离线和实时大数据开发实战》作者与你探讨大数据开发究竟如何入门?

大数据开发如何入门?

如果你百度下,知乎下,你会发现很多答案?那么应该采用那个答案呢?大数据开发的最优学习路径究竟如何呢?

其实这不仅仅是大数据开发从业人员的问题,而是对任何希望进入某一新领域的技术人员来说都会面临这个挑战?因为目前是一个信息过度的时代,理论上互联网上包含了人类以来的所有知识,浩如烟海。
但是这个问题对于大数据技术人员尤甚,因为大数据相关的技术可以说是蓬勃发展,百花齐放,对于初入者来说,一个一个响亮的名字,一个一个眼花缭乱的框架,之前刚熟悉了解了一个,马上很快又一个名字跳出来,正如白居易的《钱塘湖春行》所言,真的是“乱花渐欲迷人眼”。

这种现状是由于各种原因引起的,如社区的、商业的乃至私人的各种原因。

那么大数据从业者如何面对呢?初学者如何入门呢?初学者如何提取互联网上的信息为我所用呢? 技术的深度和广度如何把握呢? 深入到何种程度,涉猎到何种范围?

这是一个非常有意思的话题,个人在这里分享自己的学习经验和思考,供大家参考,也请大家多讨论交流。
个人认为,进入一个新技术领域包含大数据的入门:

第一、 要快速找到该领域的知识图谱

这里指的是真正的知识图谱,就是这个领域的知识大图;有了它就能按图索骥,有所学、有所不学,有所深入,有所了解,对于大数据来说,这个知识大图就是数据的整个大图;

第二、 在数据大图中找到你的锚点和定位

比如大数据这个领域,从角色划分来说分为:数据平台开发工程师、大数据开发工程师、数据分析师、算法工程师,从流程划分又分为数据采集传输、数据处理(离线处理、流式处理)、数据存储、数据应用(统计分析、数据挖掘、机器学习、深度学习等),每种角色、每个流程,对于大数据的具体技术掌握程度和侧重点完全不同(在真正的大数据项目和部门中,实际是由完全不同的团队来承担的),所以找到你的角色和定位才能有所侧重,也才能决定具体技术的深入程度;

第三、 深度挖掘和投入

有了第一和第二点,你就真正找到了你的锚点,再结合工作中涉及相关技术的内容和频次以及个人对未来的技术发展规划,具体深入的有关技术的各个领域,深度挖掘某项技术,由点及面,建立你大数据技能和职业生涯的的坚实基础。

对于技术人员来说,你的时间和精力花在什么地方,你就会成为什么样的人!人的时间和精力是有限的,所以请珍惜你的时间和精力分配,对于重点技术要重兵投入,对于其他技术要区分开来,有所涉猎,有所了解。

以上是我个人对于大数据和大数据开发入门的一些浅显认识和经验。大家有什么思考、经验、想法、问题,请大家聊一聊啊,精彩和走心的讨论有机会获得我最新出版一本大数据开发书籍《离线和实时大数据开发实战》的实物奖品哦(限量5本)!

顺便PR下,《离线和实时大数据开发实战》(机械工业出版社)这本书就是给大数据开发初学者和中级人员撰写的,这里你能找到数据的大图、数据的离线和实时架构、针对大数据开发这个锚点应该重点掌握的各种数据技术和理论的深入探讨,当然也包含了个人对于数据开发技术未来发展的认识。

个人觉得这可能是目前市场上第一本系统化讲述、同时又从项目实践角度出发,对数据开发的各种技术重点探讨的大数据书籍。

_

PS:购买此书请点击这里

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    大数据新书 x 5

36个回答

0

zijiejiang 已获得大数据新书 复制链接去分享

非常赞同专家的观点,谈到大数据,我没有入门过,不过很想借助一套教材入门。
看了介绍,这本书应该是很适合我入门的了。在这里说下我对大数据的认识和疑惑。
我理解的大数据
大数据就是海量的有价值的信息,大数据开发就是把这些分析这些数据,从中提取出有价值的信息。
最早了解的大数据应用,应该是淘宝的精准推送。当时很好奇淘宝怎么知道我喜欢这种商品?后来一想也不难猜到其中的原理。
我的理解是淘宝会有专门的数据库记录搜索关键词。
比如记录发现大部分用户搜索完产品A后,会继续搜索B,以后有用户搜索了A产品,系统就给用户推荐B产品。
162726126
这是我对大数据简单的理解,大神莫笑。
对大数据的疑惑
1,怎么才能获得有效的数据来源
像有用户基础企业,他们获取数据很轻松。如果是我们普通小企业也想做大数据分析,能有什么方式有效的获取数据呢?使用Python爬虫可以获取很多网上的数据,但是这些数据往往不够全面,价值不高。是不是有更好的方式获取数据?
2,获取到数据后怎么存储数据
比如,如果是excel中存储的数据,应该把它转为熟悉的数据格式才对是吧?那么这种转化过程需要什么工具?这些工作都做好了,接下来应该就是,对数据的分析和利用了吧?
3,获取数据后怎么分析和利用
就是算法的问题,借助php和mysql基本上能实现我的算法。但是大数据要分析的数据是海量的,或者动态增长的。应该使用哪架构?入门起来会不会很有难度?

邦中 回复

先感谢认可啊。
你说的淘宝对用户的商品推荐是一个典型的大数据问题,主要牵涉到了原始数据的处理和存储(采集、加工、整理)、画像、推荐引擎和算法等,实际上需要数据开发工程师、推荐算法工程师以及工程开发等,是一个复杂的过程,需要大家协作才能完成。
至于大数据的疑惑部分:
1、如我书中所述,爬虫可以爬取到数据,但是更多的、更有质量的数据是存在各个企业内部的,数据对于一个企业是战略性的、而且有安全隐私等问题,所以有的时候各个企业会提供商业接口(比如微博),有的不提供,所以还是要针对具体的业务问题,具体分析;
2&3:需要专业的数据开发工程师、分析师、算法工程师,让数据发挥价值,我这本书就是针对这些角色,让他们更快熟悉这些领域和相关的技能。

你打不到我 回复

看不懂。。。。

zijiejiang 回复
回复@邦中:

我对大数据,没有多少概念和基础。有的只是一些热情,谢谢专家的点评!每个问题都很耐心的解答我。虽然没看书里的内容,相信一定是良心制作,很期待看到它。希望专家赠送我一本,没有赠送的话我自购也是必须的。

邦中 回复

:)

zijiejiang 回复
回复@邦中:

书收到了,非常感谢!内容超棒,深入浅出的介绍了整个大数据技术的方方面面。非常适合对大数据感兴趣的同学,再次感谢。:)

dpp 回复

已经看完了吗?谈谈读后感

评论
0

aoteman675 已获得大数据新书 复制链接去分享

实时的大数据一直是个瓶颈。既然数据,不能仅仅因为数据量大而已,他是物与物之间的多维度分析。我看了这本书介绍的目录,更多的是大数据处理的核心技术,所以适合从事过一定数据挖掘的工程师才行,抛砖引玉,更多的是书中的总结经验把它扩展出来,然后再从项目经验中提升。所以更多的还是引导,总结规划给将要从事大数据开发的工程师们。现在技术革新太快了,就算是睡觉都觉得对不起自己,那么如何在极短的时间内完成“一万小时定律”,就要专家提供最优路线了。

邦中 回复

你说的很对,这些知识互联网上都有,关键要形成体系,吸收为你自己的。
希望本书能给你提供最优路线。

aoteman675 回复
回复@邦中:

谢谢指导

评论
0

sinb520 已获得大数据新书 复制链接去分享

首先,感谢作者的辛勤付出,这本书必将帮助一批像我一样对大数据领域感兴趣的人入门;
其次,认可作者的观点,找到自己的锚点然后深入研究,对于所有新技术都是如此;
最后,认可王坚在著作《在线》里表达的观点,大数据其实最重要的不是“大”,而是在线(online),只有实时处理数据并及时作出反应才能将数据的价值发挥到最大。

邦中 回复

感谢,写书确实挺花时间的,希望能帮到大家,间接能够让数据服务更多人。
数据的在线的确非常关键,尤其是随着人工智能的崛起,大数据和人工智能将会是一对最佳拍档,未来可能改变社会和商业的很多东西。

sinb520 回复
回复@邦中:

数据改变商业本质,计算重塑经济未来。

评论
0

sqtnbyy 已获得大数据新书 复制链接去分享

大数据开发如何入门?
这个问题颇难回答,我勉力为之。
1 下决心下苦功
2 坚持,中途放弃是大敌,太多人在下决心与放弃之间反复,太多时候都是有开始却没结果。
3 选择适合的书、对的老师,再找几个志同道合者一起前行吧。

邦中 回复

是的,下决心和下苦工很重要,另外一个非常重要的点是要找到重点,把时间花在项目和工作实践中真正高频、必须和有用的技术上来(这里不是说广度不重要,而是对于初学者来说要有所侧重,后期可以涉猎各种数据技术甚至算法、分析、工程等)。
我也去知乎上看了,大部分对大数据入门的回答都是罗列了一大串的技术,实际上从大数据不同角色(数据开发、分析师、算法工程师),每个角色的侧重点是不一样的,要着重掌握的技术也不一样。
《离线和实时大数据开发实战》:这本书就是针对数据开发工程师的实践指南书,写这本书的初衷就是希望数据开发的新同学能尽快入门,少走弯路,:)

sqtnbyy 回复

有道理,初学者适宜先识全貌再有所侧重。

sqtnbyy 回复
回复@邦中:

大神奖品发放了嘛?菜鸟怎么看不到物流信息的?菜鸟裹裹显示有一个包裹,几天了,始终看不到详细信息。

评论
0

微wx笑 复制链接去分享

数据大图和数据平台大图 我完全不懂啊!

邦中 回复

数据大图:主要介绍数据的流程,及每个流程相关的具体技术;
数据平台大图:主要介绍数据的架构以及架构中的相关理论和技术
希望这本书能帮到你哈。

微wx笑 回复
回复@邦中:

博士在《在线》书中提出,“大数据”这个名字叫错了,他并没有反应出数据最本质的东西,光有大对于数据是不够的

邦中 回复

你理解的很到位。大数据的大要加一个引号,应该起是“大”数据,这里的大不仅仅是体量大,我的理解更为关键的两点是:多维度的数据,也就是现在所说的全域数据;另外就是实时的数据,数据的实时性非常关键和重要。

评论
0

1813227124850287 复制链接去分享

时代在进步都要学习

邦中 回复

那就买一本哈,我相信会帮到你,:)

dpp 回复

赞同专家的观点,谈到大数据,有必要借助这套教材学习一下。

评论
1

蓝色程序猿 复制链接去分享

挺好的,不过还是需要耐心的研读

邦中 回复

希望能帮到你哈

评论
0

方快锅炉 复制链接去分享

个人认为大数据就是多种数据集成的数据集合,希望获得此书,能够学习更多关于大数据处理的知识。

邦中 回复

看完本书,也许你的观点会改变,会深入。

评论
0

猎科王工 复制链接去分享

请问都需要哪些数学知识?

邦中 回复

不需要特殊准备数学知识,看完本书你就会明白了,:)

评论
0

俄米托夫 复制链接去分享

截止现在一直在做的是企业信息系统项目实施相关的工作,SQL方面基础还算OK,程序开发有少许基础,请问如何转向大数据相关的岗位呢?需要补充哪些方面的知识和技能?

邦中 回复

看完本书你就明白了:SQL是整点,当前的离线数据处理和未来的实时数据处理的主力就是sql,我看好你,兄弟,呵呵。
当然除了sql,其他如维度建模,对于底层数据处理原理的理解也很重要,我书中都有,多谢。

评论
0

寂灵山水a 复制链接去分享

目前从事dba多年,有接触到大数据及大数据运维,希望从事大数据相关工作,了解所需技能及学习方法

邦中 回复

很多大数据开发同学都是dba转行的,希望本书能帮助你建立大数据开发的知识图谱。

评论
0

vgbhfive 复制链接去分享

我还是个在学校的学生,自己平时也会偶尔搞一下,但都是一些很垃圾的那种,好像在我们的理解中,最难的是跟不上公司的发展速度,我们能了解的都是经过互联网沉淀后的知识,对于当前最新的技术基本很难深入,不了解公司真正的大数据开发是怎么样的流程,怎么样的选择等等,这些都是问题

邦中 回复

这本书就是对针对大数据开发的初级和中级同学写的。希望本书能够让你少走弯路。 目前大数据培训的很多,但是很多都走偏了,和工业界的实际情况不一致,这本书就是当前工业界的项目实际的处理技术。

评论
0

梦觉平生 复制链接去分享

看了一下华为的,还是觉得hadoop的hids轻松点

邦中 回复

hdfs是大数据处理的底层存储技术,实际大数据处理主要使用的是:离线:hadoop的hive;实时:可能很多公司还在写api,但是未来的趋势是流计算sql,这已经在很多公司是发生的现实。

评论
0

aaaaak 复制链接去分享

要多钻研 钻研.....

邦中 回复

谢谢,相信能帮到你。

评论
0

老离 复制链接去分享

大数据开发技术,由于之前我是做后台开发的所以对这方面还是蛮感兴趣的,主要大学的宿友,现在住一栋公寓的小伙伴在从事人脸识别项目的开发,经常交流的时候能了解到他所用到的技术。很多人感觉大数据需要特别高的算法要求,不过实际开发中,算法是由专业的算法工程师设计开发的,当然做其他相关技术开发最起码的要求是要能看懂。

当前是一个大数据技术迸发的高发期,日益增多的数据量让我们必须借助一些专业的技术和工具对它们进行处理,从作者的介绍中可知,这本书能为初中级程序员更快的入门大数据开发技术提供很多帮助,感谢作者的付出。
下面是网上找的java方向的大数据开发需要具备的技能列表供大家参考
1
2

邦中 回复

列得太多了,初学者会被吓跑了,:)
如果一个人这些都会的话,不是神也是仙了。
所以还是要结合自己的角色定位,重点掌握各种技术,本书的锚点是:大数据开发。

评论
0

浮生递归 复制链接去分享

这书不错,主要涉及到Hadoop Hive 维度建模 离线数据处理 数仓开发 流计算 Storm SparkSteaming Flink Beam等方面的内容。对大数据开发的初级和中级人员都很合适。
确实,现在大数据开发的书不多,作者算是赶了个早,对刚入门或者准备入门的开发人员来说,是个很大的帮助。希望多宣传,多让我们的从业人员从中受益。
云栖大会北京峰会上一个专家认为:至少要100TB起,才能称为大数据。数据是有分量有维度的,不仅仅是简单的数字的累加或者统计。但是,实际工作中,可能是由于专业的不同,很多人把大数字当成了大数据。所以我们经常会看到通过某某某大数据统计,本次的总数量高达321,215,654,654个单位这样业务的描述。这种简单的累加统计自古就有,在数据上不做分析就直接产出的单一数据并不能称之为大数据。而最终需求如果仅仅只是这样一个总数,也用不到大数据开发。这可能是大众对大数据开发成果的一个误解。

邦中 回复

谢谢支持。

评论
0

小斐哥 复制链接去分享

自己初步涉及的领域,希望学习更多

邦中 回复

相信本书能帮到你。

评论
0

1286227347621967 复制链接去分享

大数据应用的领域越来越广泛,但技术门槛还是不低

邦中 回复

大数据开发的门槛未来会越来越低。从实时数据处理的流sql化就可以看出,从离线原来要写mapreduce(懂java)到后来写hive(sql)也证明了这一点。
看完本书你就明白了,;)

评论
0

1682713336402671 复制链接去分享

小白一个,我会努力的

邦中 回复

加油!

评论
0

zhoulele 复制链接去分享

很好。既能帮助建立自己的大数据开发知识体系和图谱,包含其有关概念、原理、架构;又能够掌握数据开发的各种技术,帮助实际的开发和优化技巧等,能对实际项目中的数据开发提供指导和参考。

邦中 回复

谢谢支持啊,我写这本书就是希望能够一站式的介绍所有大数据开发的相关技术,而且是从实践出发,而不是仅仅技术的罗列。

评论
2