这个问题比较宽泛,要回答好很难。若您是一位大数据的从业者或者研究者,建议您关注三点:1、大数据的业务思维,即数据怎么来解决业务问题,怎么通过数据进行业务创新 2、大数据的基础技能,如:数据加工能力、数据分析能力、数据挖掘能力 3、在具备前两者的基础上,多关注前沿技术领域的发展,如:AI,多点人工智能背景对您解决业务问题会带来很多新的视角;阿里云大数据技术体系或者开源社区的大数据技术体系,如:实时分析技术、实时数据流处理技术等,技术的革命往往会驱动业务领域的拓展和创新。
很有用
编程:python,java,php,数据可视化(echarts,highcharts等各种charts工具)。
收集:flume,hadoop生态环境的sqoop,开源或免费的ETL工具并不多,针对自己业务做开发,开发成本也并不是很高。
队列:kafka,rabbitmq等等吧。
离线:hadoop,zookeeper,hbase,hive,oozie(并不是很好用),可视化管理工具CDH,Hue,apache开源的Ambari。
实时:主流的有storm,spark。
数据库:mysql,Cassandra等等
进阶:数据挖掘,各种算法,机器学习,Mahout,最近成为话题的TensorFlow。
大数据发展迅速,并不是一些固定的技术就能解决问题,需要我们不断去学习,充电,最主要的是要跟自己的业务结合,应用到业务中,有实际的产出。
1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
2、数据存取:RDBMS、NOSQL。
3、数据处理:自然语言处理,处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
4、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、聚类分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)等。
5、数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)
6、模型预测:预测模型、机器学习。
首先大数据的概念
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
其次大数据的技术
大数据的技术开源的有很多,主要围绕着Hadoop的整个生态圈,可以看看这里http://www.csdn.net/article/2015-09-11/2825674 。当然,一般公司,自建大数据平台的成本是很高的,一方面是人员,一方面是基础设施维护。如果是创业公司建议参考阿里云的数加产品https://data.aliyun.com/product/product_index 。
最后是业务整合
这块其实可以说是最难的,云服务消除了技术的壁垒,但是如何让技术赋能业务,就像上面那位仁兄说的,大多数还都在尝试,这里可以参考一些案例https://yq.aliyun.com/activity/156 。就目前来看,大数据主要还是在赋能,而不是创造,更多是帮助已有的业务。
如果把大数据换做烹饪,来问烹饪需要哪些能力,那么是否是做饭炒菜好就烹饪能力好?烘焙、面点、西餐等是否属于烹饪能力?有谁见过哪个饭店厨师长样样都搞得很好,是具体领域的翘楚?
所以大数据能力,其实有很多方向,需要先找到自己的方向,技术、业务就是两大方向,不是说技术和业务非此即彼,而是两者有所侧重。
技术则又分为搭建大数据的基础平台(大数据平台型)、利用大数据平台能力构建大数据的应用(大数据产品型)、利用大数据的平台解决现实中的基础问题(大数据项目型)。这里面的岗位又有运维、运营、产品、开发、测试等等。
业务的又分为甲方、乙方,甲方可以认为有大数据,需要去解决自己的实际问题,乙方可以认为承建甲方的大数据系统或直接承解甲方的具体业务问题,做出合适的业务指导或系统建设。
上面那些还是纯应用方向的描述,而应用需要有理论支撑,软件要有硬件支撑,所以大数据范围又可以扩大。所以,先找好自己的方向,确定要走的路,然后问具体的小点。