1. 聚能聊>
  2. 话题详情

《离线和实时大数据开发实战》作者与你探讨大数据开发究竟如何入门?

大数据开发如何入门?

如果你百度下,知乎下,你会发现很多答案?那么应该采用那个答案呢?大数据开发的最优学习路径究竟如何呢?

其实这不仅仅是大数据开发从业人员的问题,而是对任何希望进入某一新领域的技术人员来说都会面临这个挑战?因为目前是一个信息过度的时代,理论上互联网上包含了人类以来的所有知识,浩如烟海。
但是这个问题对于大数据技术人员尤甚,因为大数据相关的技术可以说是蓬勃发展,百花齐放,对于初入者来说,一个一个响亮的名字,一个一个眼花缭乱的框架,之前刚熟悉了解了一个,马上很快又一个名字跳出来,正如白居易的《钱塘湖春行》所言,真的是“乱花渐欲迷人眼”。

这种现状是由于各种原因引起的,如社区的、商业的乃至私人的各种原因。

那么大数据从业者如何面对呢?初学者如何入门呢?初学者如何提取互联网上的信息为我所用呢? 技术的深度和广度如何把握呢? 深入到何种程度,涉猎到何种范围?

这是一个非常有意思的话题,个人在这里分享自己的学习经验和思考,供大家参考,也请大家多讨论交流。
个人认为,进入一个新技术领域包含大数据的入门:

第一、 要快速找到该领域的知识图谱

这里指的是真正的知识图谱,就是这个领域的知识大图;有了它就能按图索骥,有所学、有所不学,有所深入,有所了解,对于大数据来说,这个知识大图就是数据的整个大图;

第二、 在数据大图中找到你的锚点和定位

比如大数据这个领域,从角色划分来说分为:数据平台开发工程师、大数据开发工程师、数据分析师、算法工程师,从流程划分又分为数据采集传输、数据处理(离线处理、流式处理)、数据存储、数据应用(统计分析、数据挖掘、机器学习、深度学习等),每种角色、每个流程,对于大数据的具体技术掌握程度和侧重点完全不同(在真正的大数据项目和部门中,实际是由完全不同的团队来承担的),所以找到你的角色和定位才能有所侧重,也才能决定具体技术的深入程度;

第三、 深度挖掘和投入

有了第一和第二点,你就真正找到了你的锚点,再结合工作中涉及相关技术的内容和频次以及个人对未来的技术发展规划,具体深入的有关技术的各个领域,深度挖掘某项技术,由点及面,建立你大数据技能和职业生涯的的坚实基础。

对于技术人员来说,你的时间和精力花在什么地方,你就会成为什么样的人!人的时间和精力是有限的,所以请珍惜你的时间和精力分配,对于重点技术要重兵投入,对于其他技术要区分开来,有所涉猎,有所了解。

以上是我个人对于大数据和大数据开发入门的一些浅显认识和经验。大家有什么思考、经验、想法、问题,请大家聊一聊啊,精彩和走心的讨论有机会获得我最新出版一本大数据开发书籍《离线和实时大数据开发实战》的实物奖品哦(限量5本)!

顺便PR下,《离线和实时大数据开发实战》(机械工业出版社)这本书就是给大数据开发初学者和中级人员撰写的,这里你能找到数据的大图、数据的离线和实时架构、针对大数据开发这个锚点应该重点掌握的各种数据技术和理论的深入探讨,当然也包含了个人对于数据开发技术未来发展的认识。

个人觉得这可能是目前市场上第一本系统化讲述、同时又从项目实践角度出发,对数据开发的各种技术重点探讨的大数据书籍。

_

PS:购买此书请点击这里

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    大数据新书 x 5

36个回答

0

vgbhfive

我还是个在学校的学生,自己平时也会偶尔搞一下,但都是一些很垃圾的那种,好像在我们的理解中,最难的是跟不上公司的发展速度,我们能了解的都是经过互联网沉淀后的知识,对于当前最新的技术基本很难深入,不了解公司真正的大数据开发是怎么样的流程,怎么样的选择等等,这些都是问题

邦中 回复

这本书就是对针对大数据开发的初级和中级同学写的。希望本书能够让你少走弯路。 目前大数据培训的很多,但是很多都走偏了,和工业界的实际情况不一致,这本书就是当前工业界的项目实际的处理技术。

评论
0

zijiejiang 已获得大数据新书 复制链接去分享

非常赞同专家的观点,谈到大数据,我没有入门过,不过很想借助一套教材入门。
看了介绍,这本书应该是很适合我入门的了。在这里说下我对大数据的认识和疑惑。
我理解的大数据
大数据就是海量的有价值的信息,大数据开发就是把这些分析这些数据,从中提取出有价值的信息。
最早了解的大数据应用,应该是淘宝的精准推送。当时很好奇淘宝怎么知道我喜欢这种商品?后来一想也不难猜到其中的原理。
我的理解是淘宝会有专门的数据库记录搜索关键词。
比如记录发现大部分用户搜索完产品A后,会继续搜索B,以后有用户搜索了A产品,系统就给用户推荐B产品。
162726126
这是我对大数据简单的理解,大神莫笑。
对大数据的疑惑
1,怎么才能获得有效的数据来源
像有用户基础企业,他们获取数据很轻松。如果是我们普通小企业也想做大数据分析,能有什么方式有效的获取数据呢?使用Python爬虫可以获取很多网上的数据,但是这些数据往往不够全面,价值不高。是不是有更好的方式获取数据?
2,获取到数据后怎么存储数据
比如,如果是excel中存储的数据,应该把它转为熟悉的数据格式才对是吧?那么这种转化过程需要什么工具?这些工作都做好了,接下来应该就是,对数据的分析和利用了吧?
3,获取数据后怎么分析和利用
就是算法的问题,借助php和mysql基本上能实现我的算法。但是大数据要分析的数据是海量的,或者动态增长的。应该使用哪架构?入门起来会不会很有难度?

邦中 回复

先感谢认可啊。
你说的淘宝对用户的商品推荐是一个典型的大数据问题,主要牵涉到了原始数据的处理和存储(采集、加工、整理)、画像、推荐引擎和算法等,实际上需要数据开发工程师、推荐算法工程师以及工程开发等,是一个复杂的过程,需要大家协作才能完成。
至于大数据的疑惑部分:
1、如我书中所述,爬虫可以爬取到数据,但是更多的、更有质量的数据是存在各个企业内部的,数据对于一个企业是战略性的、而且有安全隐私等问题,所以有的时候各个企业会提供商业接口(比如微博),有的不提供,所以还是要针对具体的业务问题,具体分析;
2&3:需要专业的数据开发工程师、分析师、算法工程师,让数据发挥价值,我这本书就是针对这些角色,让他们更快熟悉这些领域和相关的技能。

你打不到我 回复

看不懂。。。。

zijiejiang 回复
回复@邦中:

我对大数据,没有多少概念和基础。有的只是一些热情,谢谢专家的点评!每个问题都很耐心的解答我。虽然没看书里的内容,相信一定是良心制作,很期待看到它。希望专家赠送我一本,没有赠送的话我自购也是必须的。

邦中 回复

:)

zijiejiang 回复
回复@邦中:

书收到了,非常感谢!内容超棒,深入浅出的介绍了整个大数据技术的方方面面。非常适合对大数据感兴趣的同学,再次感谢。:)

dpp 回复

已经看完了吗?谈谈读后感

评论
2

故事老神仙 已获得大数据新书 复制链接去分享

嗯……大数据开发如何入门?本想高谈阔论一番,大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据...
当然这不是今天我要说的,准备来个文艺一点的,引用王国维《人间词话》的三个境界来谈谈怎么入门大数据(主要谈思想,谈开发应有的心灵感受)。
第一境界:昨夜西风凋碧树。独上高楼,望尽天涯路。”第一境界强调一个“立”字 就是说我们做一件事首先要想通了,提前去预习功课,给自己立下目标,下定决心。这要求我们要提前去温习大数据,功课,以及掌握一些所必须会的技能(哪些技能这里就不说了,百度一下,你就知道,码字不易,且行且珍惜),我们要能看到未来事业形势发展的主要方向,能抓住斗争的主要矛盾。这是能取得成功的基础,也是我们入门大数据开发的基础。当你打牢了第一境界的基础后再来到第二境界。
第二境界:“衣带渐宽终不悔,为伊消得人憔悴。”第二境界说的是一个“守”字。
当我们开始去做大数据开发时,我们应该守住自己的初心,撸起袖子加油干,一种锲而不舍的坚毅性格和执着态度,人瘦了、憔悴了,但仍“终不悔”。在大数据开发时会遇到各式各样的困难,但还要坚持奋斗,继续前进,为了事业的一切在所不惜。这是执着地追求,忘我地奋斗。
第三境界:“众里寻他千百度。蓦然回首,那人却在灯火阑珊处。”是强调一个“得”字,到这一境界时,也就是说我们立志追逐的大数据开发,在足够的积累后,量变成为质变,不经意间已追逐到了,我们的开发也逐渐成熟起来,可能别人不理解的事物我们也会突然豁然领悟贯通。这时我们才可能在事业上会有创造性的独特的贡献。这是功到事成。这是用血汗浇灌出来的鲜花,是用毕生精力铸造的大厦。
祝大家都能成功!
打赏一本书吗?哈哈哈带我入坑/羞涩~(@^_^@)~

0

aoteman675 已获得大数据新书 复制链接去分享

实时的大数据一直是个瓶颈。既然数据,不能仅仅因为数据量大而已,他是物与物之间的多维度分析。我看了这本书介绍的目录,更多的是大数据处理的核心技术,所以适合从事过一定数据挖掘的工程师才行,抛砖引玉,更多的是书中的总结经验把它扩展出来,然后再从项目经验中提升。所以更多的还是引导,总结规划给将要从事大数据开发的工程师们。现在技术革新太快了,就算是睡觉都觉得对不起自己,那么如何在极短的时间内完成“一万小时定律”,就要专家提供最优路线了。

邦中 回复

你说的很对,这些知识互联网上都有,关键要形成体系,吸收为你自己的。
希望本书能给你提供最优路线。

aoteman675 回复
回复@邦中:

谢谢指导

评论
0

sinb520 已获得大数据新书 复制链接去分享

首先,感谢作者的辛勤付出,这本书必将帮助一批像我一样对大数据领域感兴趣的人入门;
其次,认可作者的观点,找到自己的锚点然后深入研究,对于所有新技术都是如此;
最后,认可王坚在著作《在线》里表达的观点,大数据其实最重要的不是“大”,而是在线(online),只有实时处理数据并及时作出反应才能将数据的价值发挥到最大。

邦中 回复

感谢,写书确实挺花时间的,希望能帮到大家,间接能够让数据服务更多人。
数据的在线的确非常关键,尤其是随着人工智能的崛起,大数据和人工智能将会是一对最佳拍档,未来可能改变社会和商业的很多东西。

sinb520 回复
回复@邦中:

数据改变商业本质,计算重塑经济未来。

评论
0

sqtnbyy 已获得大数据新书 复制链接去分享

大数据开发如何入门?
这个问题颇难回答,我勉力为之。
1 下决心下苦功
2 坚持,中途放弃是大敌,太多人在下决心与放弃之间反复,太多时候都是有开始却没结果。
3 选择适合的书、对的老师,再找几个志同道合者一起前行吧。

邦中 回复

是的,下决心和下苦工很重要,另外一个非常重要的点是要找到重点,把时间花在项目和工作实践中真正高频、必须和有用的技术上来(这里不是说广度不重要,而是对于初学者来说要有所侧重,后期可以涉猎各种数据技术甚至算法、分析、工程等)。
我也去知乎上看了,大部分对大数据入门的回答都是罗列了一大串的技术,实际上从大数据不同角色(数据开发、分析师、算法工程师),每个角色的侧重点是不一样的,要着重掌握的技术也不一样。
《离线和实时大数据开发实战》:这本书就是针对数据开发工程师的实践指南书,写这本书的初衷就是希望数据开发的新同学能尽快入门,少走弯路,:)

sqtnbyy 回复

有道理,初学者适宜先识全貌再有所侧重。

sqtnbyy 回复
回复@邦中:

大神奖品发放了嘛?菜鸟怎么看不到物流信息的?菜鸟裹裹显示有一个包裹,几天了,始终看不到详细信息。

评论
1

小可同学 复制链接去分享

我也在路上,在努力从数据仓库转数据挖掘!!狂补数学知识!!现在我说一下我的一些见解。求本书谢谢拉。
首先看个云图!!很多,很全。
_

当然大数据大致分为三个方向,我之前就是在搞Java,但是最后还是走了数据分析的职业道路!
一、Hadoop大数据开发方向;
二、数据挖掘、数据分析和机器学习方向;
三、大数据运维和云计算方向。
大数据开发:偏开发,当然用的语言最多的还是Java,Python,其它的当然也可以。我自己理解的一些路线,应该大致差不多。也算是经典的学习路线了。每一个点,在工作中积累经验,当然有时间自学最好了,我觉得工作是最有利积累这些知识点的,毕竟书本视频,知识点知识只是帮助我们认知,而使用还是要靠实践来积累。
_

zijiejiang 回复

都补了哪些数学知识?

zijiejiang 回复

我看最后一张图,好恐怖啊,这么多技术

zijiejiang 回复

我看最后一张图,好恐怖啊,这么多技术

小可同学 回复

大数据第二个方向需要很多数学知识!开发不怎么需要的

邦中 回复

我来回答下吧,这张图,上面很多同学都说了,很恐怖,里面包含了很多的技术有java、javaweb、linux、css,hadoop、spark、storm等;
那么每种角色到底需要哪些技术,哪些技术需要核心掌握,哪些技术了解就行,实际上现在的大数据职位基本分为三种:大数据开发工程师、分析师、算法工程师,每种角色要掌握的核心技术是不一样的:
1、大数据开发工程师:分为离线数据开发(核心技术:hive、数据仓库、维度建模,基本现在不会让你自己写mapreduce所以java不是必须的),实时数据开发(目前的趋势是实时也走sql的,而且在大公司都已经全都这样了,所以核心技术是流计算sql,但是当前业界很多是基于storm/spark/flink api),此外数据开发工程师通常是企业数据资产的管理者,所以还需要对数据管理、数据质量、数据安全等精通,但是核心是数据开发技术;
2、分析师:关键词 sql、R、数据挖掘,java也不是必须,javaweb更不会涉及;
3、算法工程师:关键词python、机器学习、深度学习、牢固的数学基础、一定的工程能力(如java,因为你需要把你的算法编程工程现实)、查阅资料和业界最新进展(英语要好)
java、多线程、javaweb属于后端开发同学,css、js等属于前端同学。
这些技术涉及了5种角色,给大家做下解释。所以找准你的角色,专研你的核心技术才是关键。

评论
0

微wx笑 复制链接去分享

数据大图和数据平台大图 我完全不懂啊!

邦中 回复

数据大图:主要介绍数据的流程,及每个流程相关的具体技术;
数据平台大图:主要介绍数据的架构以及架构中的相关理论和技术
希望这本书能帮到你哈。

微wx笑 回复
回复@邦中:

博士在《在线》书中提出,“大数据”这个名字叫错了,他并没有反应出数据最本质的东西,光有大对于数据是不够的

邦中 回复

你理解的很到位。大数据的大要加一个引号,应该起是“大”数据,这里的大不仅仅是体量大,我的理解更为关键的两点是:多维度的数据,也就是现在所说的全域数据;另外就是实时的数据,数据的实时性非常关键和重要。

评论
0

1813227124850287 复制链接去分享

时代在进步都要学习

邦中 回复

那就买一本哈,我相信会帮到你,:)

dpp 回复

赞同专家的观点,谈到大数据,有必要借助这套教材学习一下。

评论
1

蓝色程序猿 复制链接去分享

挺好的,不过还是需要耐心的研读

邦中 回复

希望能帮到你哈

评论
0

老月亮 复制链接去分享

个人认为学习大数据,关键是基础(例如数学),基础比较扎实学大数据会事半功倍,也能从事比较核心的技术;大数据分析就是把现有的数学分析运用到实际中

邦中 回复

数学对很多学科都很重要,是工具的工具。具体大数据开发来说,还是要结合项目实际,侧重技术重点,这样才能事半功倍,在问题中学,在场景中学,在项目实际中学的印象才深,有句话说的 很好“纸上得来终觉浅,绝知此事要躬行”。

评论
0

方快锅炉 复制链接去分享

个人认为大数据就是多种数据集成的数据集合,希望获得此书,能够学习更多关于大数据处理的知识。

邦中 回复

看完本书,也许你的观点会改变,会深入。

评论
0

一根白发 复制链接去分享

  时代发展变化的速度令人惊叹,信息化、互联网、人工智能……这些一、二十年前人们非常陌生的词汇,如今已然成为主流元素。在《大数据时代:生活、工作与思维的大变革》一书中,作者维克托·迈尔·舍恩伯格指出,大数据推动的这场时代变革已经影响到人们生活、工作和思维的方方面面。
  大数据时代,展现在人们面前的是一种全新的“全数据模式”,促使人们在一定程度上“宽容”错误,改变着人们的日常生活习惯。正如书中所强调的,“执迷于精确性是信息缺乏时代和模拟时代的产物”,大数据不仅让我们不再期待精确,也让我们无法实现精确。人们生活中大量事实的确如此,当数量规模变大的时候,“确数”的重要性被相对削弱,注意力容易转向“概数”。社交网络平台上的数据便是印证这一观点最直观的例子,当浏览量或点赞量达到一定规模后,精确的数字将不再显示,取而代之的是诸如“100000+”“122万”等一类近似值。我们开始接受相对程度上的“不精确”,因为我们已经可以不再依托于样本,而是能够通过大数据获取总体,从而减少样本可能因为“蝴蝶效应”引发的错误。催生了管理大变革,对管理世界的方法提出了挑战,这场变革涉及风险和掌控。“大数据的核心思想是规模剧增来改变现状”,庞大的数据体量要求我们改变管理的思维和方式。近期频发的信息泄密和隐私泄露问题引发网友的激烈讨论,人们感觉到被监视、被监听,大数据使人们时刻都暴露在“第三只眼”之下,大大地威胁到了人们的隐私和自由。如何确保信息安全,是我们要直面并亟待解决的问题。习近平总书记在今年4月20日至21日召开的全国网络安全和信息化工作会议上强调:“没有网络安全就没有国家安全,就没有经济社会稳定运行,广大人民群众利益也难以得到保障。”大数据的初衷和目的是让我们的社会变得更加智能和富有安全感,我们不能完全被数据的预测功能所支配,不能对数据盲目崇拜,也不能成为数据的奴隶,而要意识到新技术的风险,切实保护数据安全,让数据为我们所用,促进其发展。

邦中 回复

你是机器人么?

评论
0

猎科王工 复制链接去分享

请问都需要哪些数学知识?

邦中 回复

不需要特殊准备数学知识,看完本书你就会明白了,:)

评论
0

俄米托夫 复制链接去分享

截止现在一直在做的是企业信息系统项目实施相关的工作,SQL方面基础还算OK,程序开发有少许基础,请问如何转向大数据相关的岗位呢?需要补充哪些方面的知识和技能?

邦中 回复

看完本书你就明白了:SQL是整点,当前的离线数据处理和未来的实时数据处理的主力就是sql,我看好你,兄弟,呵呵。
当然除了sql,其他如维度建模,对于底层数据处理原理的理解也很重要,我书中都有,多谢。

评论
0

寂灵山水a 复制链接去分享

目前从事dba多年,有接触到大数据及大数据运维,希望从事大数据相关工作,了解所需技能及学习方法

邦中 回复

很多大数据开发同学都是dba转行的,希望本书能帮助你建立大数据开发的知识图谱。

评论
0

梦觉平生 复制链接去分享

看了一下华为的,还是觉得hadoop的hids轻松点

邦中 回复

hdfs是大数据处理的底层存储技术,实际大数据处理主要使用的是:离线:hadoop的hive;实时:可能很多公司还在写api,但是未来的趋势是流计算sql,这已经在很多公司是发生的现实。

评论
0

aaaaak 复制链接去分享

要多钻研 钻研.....

邦中 回复

谢谢,相信能帮到你。

评论
0

古散 复制链接去分享

大数据开发技术,由于之前我是做后台开发的所以对这方面还是蛮感兴趣的,主要大学的宿友,现在住一栋公寓的小伙伴在从事人脸识别项目的开发,经常交流的时候能了解到他所用到的技术。很多人感觉大数据需要特别高的算法要求,不过实际开发中,算法是由专业的算法工程师设计开发的,当然做其他相关技术开发最起码的要求是要能看懂。

当前是一个大数据技术迸发的高发期,日益增多的数据量让我们必须借助一些专业的技术和工具对它们进行处理,从作者的介绍中可知,这本书能为初中级程序员更快的入门大数据开发技术提供很多帮助,感谢作者的付出。
下面是网上找的java方向的大数据开发需要具备的技能列表供大家参考
1
2

邦中 回复

列得太多了,初学者会被吓跑了,:)
如果一个人这些都会的话,不是神也是仙了。
所以还是要结合自己的角色定位,重点掌握各种技术,本书的锚点是:大数据开发。

评论
0

浮生递归 复制链接去分享

这书不错,主要涉及到Hadoop Hive 维度建模 离线数据处理 数仓开发 流计算 Storm SparkSteaming Flink Beam等方面的内容。对大数据开发的初级和中级人员都很合适。
确实,现在大数据开发的书不多,作者算是赶了个早,对刚入门或者准备入门的开发人员来说,是个很大的帮助。希望多宣传,多让我们的从业人员从中受益。
云栖大会北京峰会上一个专家认为:至少要100TB起,才能称为大数据。数据是有分量有维度的,不仅仅是简单的数字的累加或者统计。但是,实际工作中,可能是由于专业的不同,很多人把大数字当成了大数据。所以我们经常会看到通过某某某大数据统计,本次的总数量高达321,215,654,654个单位这样业务的描述。这种简单的累加统计自古就有,在数据上不做分析就直接产出的单一数据并不能称之为大数据。而最终需求如果仅仅只是这样一个总数,也用不到大数据开发。这可能是大众对大数据开发成果的一个误解。

邦中 回复

谢谢支持。

评论
2