不论是大数据还是小数据,有用的就是好数据!

简介:

笔者每一天都会听到这样的问题:「我到底需要大数据吗?」实际上,站在管理的角度上,数据越小越好。从这个方向出发,你或许并不需要大数据。但不论如何,在特定情况下大数据其实非常有用。

大数据

  大数据到底有多大?

在 2001 年,道格 · 莱尼(Doug Laney)写下了一篇具有开创性意义的文章。在这篇文章中,莱尼描绘了一直困扰着他的客户的一个数据问题。莱尼的客户受困于体量(Volume)过于庞大的数据,这些数据正在以爆发式的速度(Velocity)增长,同时数据所呈现的形式也非常多样化(Variety)。莱尼的体量、速度和多样化理论得到了广泛认可,并被称为「大数据的三重奏」。

遗憾的是,许多人并没有抓住莱尼的重点。他在文章中所描述的是大数据所蕴含的问题,而不是优势。

想要收集大数据其实并不容易,而且收集和使用的成本往往非常高昂。与此同时,在一般情况下大数据和具体商业问题的关联度其实并不明显,遑论大数据往往不能满足品质标准的要求。况且在面对大数据时,管理数据所投入的资源并不能在分析、二次研究以及执行等环节中使用。由此看来,大数据对于许多人而言其实并不是一个祝福。相反,大数据有可能会严重摊薄企业在数据分析环节所需要的资源。

  大数据思维

和其他问题相比,某些问题往往会显得更加重要,而某些问题则往往会显得更为复杂。但即便是在解决那些非常重要或复杂问题的时候,我们也不一定需要体量庞大的数据。

我最喜欢的例子之一是载人航天计划,你只需要考虑想要活着将人送到太空所需要的所有信息和计算,就不难理解这是一个多么复杂的问题。载人航天任务所涉及的数据包括:

宇航员的身体状况和医学信息

地理测量学(航天器的位置)和重力场

气象学,云层量和辐射平衡

大气物理学

磁场强度

宇宙射线和辐射捕获量

电磁辐射(紫外线、X 射线和伽玛射线

这份清单只是所需清单中的一小部分,但它所包含的信息量已经非常庞大。甚至连笔者本人也不清楚这些信息到底意味着什么,他只是从一份老旧的 NASA 文件中找到这份清单。(有谁知道行星际介质的测量方法吗?)

载人航天计划所需要的数据到底有多少?与之匹配的计算能力又该有多少?这两个问题的答案你能猜出来吗?

笔者曾有幸和「水星计划」(Mercury Project,美国第一个载人航天计划)的编程人员露西 · 西蒙 · 拉科夫(Lucy Simon Rakov)进行会谈,她向我描述了项目所使用的电脑。据拉科夫描述,尽管项目中的电脑性能非常强大,但内存却只有 300 千字节。你没有看错,不是「艾字节」,不是「拍字节」,也不是「兆字节」,而是「千字节」!

换而言之,只要你足够聪明,你就可以凭借内存极小的设备将航空器送上太空,要知道 300 千字节的内存甚至连存储一张大一点的图片也不够。由此看来,小小的空间其实也大有所为!

尽管如此,大数据有时会变得相当宝贵,与其价值相比,处理中的烦恼和成本甚至也变得不值一提。

  大数据有什么好处?

大数据可以针对用户提供定制化的细节数据,有了这些数据,你可以作出更加明智的决策。实际上,有了大数据的帮助,你在顷刻间即可完成上千项决策。

如果说你可以一个接着一个地观察用户,你会更了解他们的习惯、喜好和需求。你会更了解如何和他们相处。只要数据的准确度和质量得当,大数据可以让你以定制化的方式与用户保持亲近,就像对待朋友一样。

你可以通过分析数据中的细节为用户提供个性化服务,客户可以从你身上获得类似于亚马逊(Amazon)或者 Netflix 的针对性服务。更加显著的例子是在线婚恋网站的配对服务。

我需要大数据吗?

除非你已经可以在工作中善用日常更小级别的数据,否则大数据对你而言还言之过早。更重要的是,不论面对的是大数据还是小数据,最重要的是你可以善用数据,并将其转化成自己的强力武器。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
109 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
10天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
13 3
|
13天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。