大数据创业,数据哪里来?需要跨过几道坎?

简介:

这篇文章考虑了很久也没下笔,一方面想写得干货一些,一方面又想写得引人入胜一些,纠结来纠结去,终于决定还是以一个中立的用户角度去写,尽量写得大众化一些。

大数据创业,数据哪里来?需要跨过几道坎?

2013年5月10日,在淘宝十周年晚会-马云退休演讲中,马云说:这是一个变化的时代。还有人没搞清楚PC,移动互联网来了;还没搞清楚移动互联网,大数据来了。而变化的时代是年轻人的时代。

马云说的这句话很关键,他不仅提到了大数据,而且更是用一句话阐述了互联网从PC时代,进化到移动互联网时代,然后从移动互联网时代进阶到了大数据时代。有几个关键点很重要:

PC时代,全球催生了大量的互联网上市企业,包括谷歌、亚马逊、新浪、搜狐、新东方等等;

移动互联网时代,中国创业热潮风生水起,不仅有大量的移动互联网(包括手游)企业赴美上市,更是诞生了无数个创业奇迹;如:陌陌科技公司、中国手游娱乐集团有限公司均在纳斯达克上市;飞鱼科技、云游控股(Forgame)和蓝港互动均在香港上市;而掌趣科技和北纬通信在深圳证券交易所成功挂牌上市。移动互联网不仅为我们的生活带来了便利,更是把创业热潮推向了历史最高峰。

现在问题来了,大数据时代,创业热潮是不是应该比移动互联网时代更加热闹呢?大数据时代如何创业?大数据创业的门槛又有哪些呢?

先回答第一个问题:大数据时代,创业热潮是不是应该比移动互联网时代更加热闹呢?

据我了解,不是。走在中关村创业大街上,你能收到的100份融资BP里,可能有99份都是APP和O2O项目,但99家里90%以上会重视大数据。

那么大数据时代如何创业呢?请先了解一下大数据的创业门槛。

门槛一:数据

大数据大数据,没有数据怎么玩?那么数据从哪里来呢?

像百度、腾讯和阿里巴巴这样的BAT企业,本身就积累了大量的数据,所以他们玩起大数据来,多半是“闷声发大财”。当然了,也可以举几个BAT企业 玩大数据的例子,比如说百度旗下的“百度迁徙”、“百度精算”、“百度舆情”、“百度大数据预测引擎”等等,都是百度的大数据产品应用;阿里巴巴的话, “阿里云”、“支付宝-花呗”、“支付宝-借呗”“芝麻信用”、“蚂蚁金服”等等,都应用了大数据技术。而腾讯方面,“腾讯广点通”、“腾讯云分析”和微 信等也都应用了大数据技术。

尔等屌丝没有数据,如何玩呢?

首先,你可以通过第三方购买数据,比如说,数据堂就有很多数据出售和分享;
其次,你可以用爬虫爬回一些数据来存储;
再者,通过给企业、开发者、站长等等授权使用大数据工具来积累数据。这方面的新创企业包括Talkingdata、友盟和DataEye等。
最后,使用免费的政府、企业、和机构开放数据。比如说高德数据的API接口微博商业数据API接口等等。

总体来说,解决好数据源是大数据创业的必要门槛。关键看你创业的项目是什么。

门槛二:硬件

在北京,我曾经参观过一家大数据初创企业,当时他们还没有拿到融资。我去他们的办公区发现一幕特别心酸的事情。他们的员工挤在一间很小的屋子里办公,而两件较大的屋子都用来安放大数据存储服务器。

大数据的存储量是很惊人的,这对机房和硬件设备也提出了新的挑战。这一点和移动互联网不太一样,你做一个APP,用电脑搞开发,服务器用云服务器就行,按需购买。但是大数据不行,你没法把自家的数据存储在别人的云服务器上,一方面是安全因素,另外一方面也有产权因素。硬件也是大数据创业的门槛之一,但不是最大的门槛。

顺便补充一句,我曾经参观过的那家大数据新创企业,目前已完成百万美元的A轮融资,现在他们家的办公区特别宽敞,恭喜星图数据。

门槛三:人才

我认为大数据创业的最大门槛在于人才。和做APP不一样,大数据创业你一个人乃至几个人都是没法玩转的。初创企业你就往10-15人这样的团队先招 人吧,这样的团队要包括Hadoop工程师、算法工程师,数据建模工程师、架构师、NoSQL工程师、BI工程师等等,全都是技术要求较高、薪资要求也很 高的人才。大数据人才有多贵?在美国,在R、NoSQL和MapReduce方面需求的专业人才薪水达到了每年约11万5千美元,在中国也便宜不到哪里 去,没有年薪30万,你很难招到一个大数据人才。

据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。也就是说,技术很牛的大数据人才,他的选择面很宽,要么早就进入BAT企业,要么也是在不错的企业拿着高薪,你要挖这样的人才,除了钱,股票、期权、福利等等,都是必须付出的代价。

2015年-2016年是大数据人才最为匮乏的两年,原因很简单,各大刚刚开通了大数据科目的院校,学生还没毕 业;而招聘市场上的大数据人才需求量远远已经供不应求。除了BAT企业,通信企业、电力企业、金融银行行业、医疗行业、工业、游戏行业等等,哪个行业不是 都在招大数据人才?创业公司要在这么严峻的人才环境中找到适合自己的大数据技术人才,门槛可不止是钱。

门槛四:技术

说了人才,就要说技术了。大数据技术不是你懂C++或者R语言就够了的,大数据有一整套自己的技术体系,包括统计、编程、JAVA、数据库、 Hadoop、Spark、NoSQL、机器学习、自然语言处理、算法、数据可视化等等技术。光是Hadoop需要用到的技术和编程语言就有很多项。而且 市面上的大数据工具每家用的还不一样,用开源软件(如Hadoop、Spark)或者用SAP(SAP HANA)需要的技术也不一样。技术要求较高,而拥有大数据综合技术的人才又较少,这也成为了制约大数据创业的最大问题。

门槛五:钱

其实我不想写钱,但是又必须写钱。大数据行业创业不缺资本,只要你创业项目的商业模式没问题,并且技术能力强, 且团队靠谱,无论在中国还是在美国,融个A轮还是没有问题的,资本关注度很热。但是你在拿到融资之前,自己启动的资金就需要一大笔。人才、硬件和技术成本 都较高。这么理解吧,如果说,几个好朋友凑50万花3个月可以做一个APP项目,那么要在大数据行业创业的话,请先准备600-800万再来玩。

门槛六:商业模式

中国互联网上最赚钱的行业是什么?我认为是电子商务和网络游戏。电子商务和网络游戏也是互联网变现最快的行业。而大数据,它的变现能力不如网络游戏 和电子商务那般简单直接。在我拜访过的很多企业中,他们手里有钱、有数据、有人才也有技术,但是他们不知道自己手里的数据可以拿来做什么。也就是说,大数 据目前没有最明朗最直接的商业模式。

大数据只有和业务场景结合,才能产生价值。

大数据就像石油原油一样,你知道它在哪里,你可以开采它,但是开采出来你还需要冶炼,并且经过减压蒸馏、加氢精制、溶剂精制、溶剂脱蜡等炼制过程, 成为成品油后运送到各个加油站,让汽车加满油后产生了动力才实现最终价值。大数据也一样,需要一整套复杂的过程才能实现商业价值。

那么你可能会问了,大数据交易算不算是商业模式呢?

我个人觉得,要看交易的是什么东西?原始的非结构化的数据,后面数据清洗需要太多的工序,数据存储也是很大的成本,这样的交易代价太高。我相信无论是企业用户也好,还是个人用户也好,大家更倾向于购买“拿来就能用”的大数据数据源。

你说京东和腾讯完成首笔大数据交易,我觉得就是一个笑话,京东和腾讯的大数据不早就整合在一起了么?我用微信直接就能在京东购物,数据是互通的,何必交易?

所以说,大数据创业最难的还是在于商业模式的思考,如果你没有找到一条让大数据变现的渠道,那么千万不要忙着拉团队创业。大数据行业创业,光有idea是不够的,跑通整个商业模式才是关键。

回答最初的问题来,大数据如何创业呢?我认为是:

一、找到一个大数据商业突破口;搞清楚你要用大数据解决什么问题,你的用户是谁?商业逻辑是什么?
二、找到一笔启动资金;
三、最好自己就懂一些大数据相关技术。
四、找到几个可以与你同甘共苦的伙伴。
五、找到你的数据来源,最好是独家的数据来源。

事实上,其实我认为目前不要着急去做大数据项目,做大数据处理工具是个不错的方向,可以先从做BI(商业智能)、CRM、ERP系统开始,等你有了客户,有了数据之后,回转头来做大数据项目,会更加水到渠成。

下面回答两个大家经常问的问题:

大数据人才培训算不算大数据项目呢?

我认为不是,它应该叫做培训/教育项目。

那么市面上那么多的大数据培训企业,选哪家好呢?

我的回答是,都不选。如果你是技术类应届毕业生,建议先找份实习的工作,找个靠谱的师父跟着学,一边做项目,一遍自学大数据相关知识,遇到不懂不明 白的直接问师父好了。实践比学习更重要。如果你不懂技术,那么请先学习计算机基本编程技术,把C语言和C++等学会。学完再来想,自己到底还要学什么。大 数据培训不是针对没有技术的底层人员,而是需要一定的技术基础的。如果你的数据分析技术为0,那么可以先学好Excel,心急可吃不了热豆腐哦。


本文作者:诺蓝

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
21 0
|
8天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 1
|
8天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
23 1
|
8天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
22 0
|
9天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
18 0
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
|
9天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在DataWorks中,从Elasticsearch同步数据到ODPS时同步_id字段的如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
9天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之dataworks 同步es数据到maxcompute 遇到报错:获取表列信息失败如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
21 0

热门文章

最新文章