云栖问答

找不到答案?去提问题

云栖社区 2016-08-31 20:34:41

大数据要具备哪些能力啊啊?


来源: [直播] 蚂蚁金服大数据开放式创新实践

大数据要具备哪些能力啊啊?

129个回答

0

陨落

域名投资

0

空城♚网络

质量 和数量

0

学思而行

要学的挺多的加油

0

1131289160128750

笼罩

0

congjiezhang

计算机基础,编程,算法,数据库

0

萧宇@52

数量,质量,准确度

0

青果子

学习了

0

smelltoo

多多益善吧!
编程:python,java,php,数据可视化(echarts,highcharts等各种charts工具)。
收集:flume,hadoop生态环境的sqoop,开源或免费的ETL工具并不多,针对自己业务做开发,开发成本也并不是很高。
队列:kafka,rabbitmq等等吧。
离线:hadoop,zookeeper,hbase,hive,oozie(并不是很好用),可视化管理工具CDH,Hue,apache开源的Ambari。
实时:主流的有storm,spark。
数据库:mysql,Cassandra等等
进阶:数据挖掘,各种算法,机器学习,Mahout,最近成为话题的TensorFlow。

0

sanfran

归结自学能力!

0

1316677126580914

海量的数据,快速获取有用信息

0

郭璞

感觉是受得住寂寞,能耐下心做事的态度

0

无神

还是先学好基础编程吧。

0

张艺兴gf

个人浅见 首先需要通过某种方式或手段收集数据 如现在几乎任何一个APP都需要注册登录信息 你要使用这个产品 就必须填写你的个人资料和基本信息 (还各种授权本机服务 不然就无法进行下一步操作)当用户量足够大时就形成了数据网络 这个产品的背后团队可以将这个数据再次开发利用或者进行倒卖 当这种操作反复多次 基本上你的信息就被共享了 对于老百姓而言 不怕自己在大数据时代被透明 而是担心安全问题吧

0

1568988887961921

算法

0

chenxuali

编程语言:Java和Python都可以
数据库:传统RDS需要熟悉,HBase这些大数据的数据库需要了解
数据采集:Flume、Sqoop这些组件要熟悉
消息队列:常见的MQ,比如RabbitMQ,Kafka等要熟悉
SQL类的数据分析:Hive、Kylin、SparkSQL、ELK套装
老牌数据分析:SAS、SPSS、Matlab这些,但可能有点难度
数据可视化:传统的Excel绘图,基于H5的ECharts
机器学习:常用的算法和概念要熟悉,分类、聚类等,工具很多,包括Mahout、Tensorflow、Caffe等等
算法:具体算法知识可以慢慢积累,一般的工具都已经集成,用是没问题的,但优化就需要了解细节
云计算:大数据常用组件的部署需要熟悉,熟悉至少一家的云服务,比如阿里云,甚至这些云都会提供封装好的大数据服务,以及Docker化的部署可以了解一下。
大数据分布式计算相关组件:分布式存储HDFS、分布式协调Zookeeper、资源调度Yarn都要熟悉
流式计算:Spark Streaming、Storm这些

总之具体问题具体分析,工具要熟悉。

0

攻城狮v

大数据方向看似一个技术方向,其实里面也是一番天地,五脏俱全,不可单独而论,先了解一番,再选方向吧;采集、存储、清洗、计算、展示。

0

ifchange

大数据处理是一种数据处理思想,技术只是一种手段,可以不断的学习,思想和思路很重要

0

南瓜青年

统计学基本素养和计算机素养吧。

0

hankunfang

这个问题好大。从数据的来源到输出这个思路,可以这么看。

  1. 数据采集过程,数据存储过程;
  2. 数据处理过程: 实时数据处理,离线数据处理;
  3. 数据分析过程,模型建立;
  4. 对业务带来的价值:数据带来的业务价值。
  5. 数据反哺业务,业务促进数据沉淀。

0

1915516785360947

看不太懂

7
GO