深层数据:推动大数据成功的关键所在

简介:

FirstFuel公司CTO表示,寻求规模更小、更具相关性的浓缩型信息是解开大数据无穷潜力的关键所在。


毫无疑问,大家肯定都听说过“大数据”,但“深层数据”呢?答案恐怕是否定的。不用紧张,我并不打算给硬塞给大家新的专业词汇。不过鉴于近期以来企业用户正持续就需要收集并管理的数据量展开争论,我认为深层数据的概念应当进入各位关注数据潜力的企业用户的扁当中。专注于建筑行业能源利用效率的分析企业FirstFuel公司CTO兼首席数据官Badri Raghavan对此有着自己的独到见解。该公司的客户们,包括政府机关与能源机构,都在使用FirstFuel的能源分析服务以推动更为环保、更具成本效益的方案向办公环境、学校以及其它设施建设领域的普及。


在一次电话采访当中,Raghavan谈到了他对于“深层数据”的看法以及FirstFuel公司如何将这一理念转化为自身竞争优势。


“我们所谓的‘深层数据’其实是相关领域多种专业性知识储备的综合体——对于我们来说,也就是能源行业与数据科学的结合——旨在帮助技术人员从宏观规模角度对建筑的能源使用情况作出分析,”他告诉我们。


深层数据的概念与信息密度拥有密不可分的关联。“给定数据流当中可能包含大量信息,”Raghavan表示。“相反,大家也有可能收集到大量缺乏足够结论性内容或者信息的数据。”


大家可能已经猜到了,Raghavan本人对于数据收集或者尽可能汇总更多信息的作法并不认同。但目前很多企业都是这样做的,即在尚不确定是否有意义的情况下盲目汇集规模庞大的数据总量。


数据收集的真正核心在于效率,或者说“对目前已经掌握的数据资产加以利用。要实现这一目标,我们需要首先明确自己需要解决哪些技术或者业务难题。在大家可资利用的资源当中,哪一种数据流的作用最为重要?”


在FirstFuel所从事的行业当中——即分析大型建筑物的能源消耗情况——单一数据流往往成为最重要的计量数据。


“我们会把计量数据作为一栋建筑物的扫描结果。利用我们的数据科学算法,我们可以对建筑物的健康状况作出分析、找出其中的薄弱环节以及仍有效率提升空间的部分。”


他指出,这就是深层数据实际起效的一类极佳实例。计量数据是“一种相对精练的数据流,但其中包含的内容却相当丰富,”FirstFuel得以借此定位其最感兴趣的问题:找出能源消耗当中有违效率优先原则的状况。


当然,对于很多企业来说最重要的是摸清哪些数据流最具分析价值,而后还需要将其与其它数据加以结合以获得新的分析结论。


FirstFuel已经找到了几种通常最具潜在价值的数据流类型。

“计量数据能够告诉我们与建筑物相关的大量信息,”Raghavan指出。“接下来我们开始使用高分辨率航空影像——是的,就是谷歌地球,我们在工作中大量使用这类资料。从我们的角度来看,其中包含丰富的潜在信息。它能告诉我们这些建筑物楼顶布置有哪些类型的设备,”而FirstFuel能够借此大体判断对应建筑物需要消费的能源总量。


这家分析企业还将来自国家气象服务中心的数据纳入考量范畴。“我们着手进行设置,并逐步逐步再逐步将其引入。只要能够对信息分析结论起到改进作用,我们就会将相关数据流纳入考量。”而根据他的说法,这就是深层数据的基本概念。“大家可以对规模相对较小的数据集进行深层研究,而不再像过去那样长期面对浩如烟海的数据总和……并试图从其中捞到象征有价值结论的小针。”


举例来说,FirstFuel完全可以收集多种额外数据——其中包括与交通流量及泊车状况有关的信息,此外Twitter数据流也有涉及——但事实上根本没有明确的理由驱使他们选择这样费力的方式。


“相对于直接跃入存在海量数据可资进行潜在分析的大数据海洋、却往往最终几乎甚至完全得不到有价值信息,我们更倾向于从规模相对较小的数据量中获得更大收益——即将注意力集中在那些能够切实反映建筑物客观状况的数据身上,”Raghavan指出。“在制定出这样的解决思路后,接下来我们会逐步把想法变成现实。”


原文发布时间为:2014-08-01

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
4天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
6天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
64 0
|
2月前
|
JSON 分布式计算 MaxCompute
MaxCompute问题之创建数据集失败如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
存储 分布式计算 DataWorks
MaxCompute数据问题之数据不一致如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
存储 分布式计算 DataWorks
MaxCompute数据之数据不一致如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
26 0