大数据:泛滥信息中的预测性

简介:

信息革命:让一切事物都数据化

所有可计算的都要计算,所有可测量的都要测量,对那些不可测量的,要想办法让其变得可测量。

——伽利略

某些历史学家称,人类正在经历农业革命和工业革命后的第三次革命,即信息革命。IBM著名预测分析科学家科林·席勒形象地表示,信息革命的关键就是“让一切事物都数据化”。在信息时代,你所做的每个在线甚至线下动作都会被记录再案,无论是商业交易、访问网站、点击链接、观看电影、给朋友打电话……都会被有记录。每天,你的四周都充斥着信息传递装置。移动终端、自动机器以及海运集装箱,它们会记录位移信息、交互作用、库存盘点以及辐射水平。 个人健康系统会记录你的脉搏以及日常锻炼情况。现在,大量的桌面应用程序都更新为“云计算”,这使得你在电脑上的每一步操作都被记录下来。

数据中蕴含着人类行为的基本信息。诚然,数字编码从深度和广度上完全捕捉人类经验,但这并不是问题。企业会记录那些与其经验紧密相关的人类行为,因此尽管了解人类日常生活是一项艰巨的任务,但企业界早已率先为预测分析提供了宝贵的原始素材,那就是:从无穷复杂的日常生活中总结规律,然后确定生活中哪些细节最显著。

世界打开了一个全新的窗口。美国麻省理工学院的经济学家埃里克·布林约尔松教授将这种对人类行为的大规模记录、观察与历史上另一种具有划时代意义的观测工具的问世联系在一起,“几百年前,人类发明了显微镜,由此可以观测此前从来不能看到的细胞层面的活动”。《纽约时报》这样解释布林约尔松教授的观点。“这是观测史上的革命。数据观测技术就是现代的显微镜。”但与用显微镜来观测细小事物不同,我们通过数据观测来看清此前人类无法统观的宏大图景。

数据泛滥

现在,世界上的照片数量超过了板砖数量。

——现代艺术博物馆摄影部主任约翰·萨科夫斯基,1976年

现在,YouTube上每秒钟都会有1小时的视频内容上传,而万维网目前预计有83.2亿个网页。 每小时都有数百个网络交易。现在,世界上每小时拍摄的照片都要超过照相技术发明之后100年内的照片数量总和,每两分钟拍的照片数量要超过19世纪所拍摄的照片数量总和;每天, Facebook上都有超过2亿张照片上传。飞秒摄影技术每秒钟可拍摄数万亿张图片,以记录这个世界(有关每个例子的出处,请登录网站www.PredictiveNotes.com)。捕捉用户数据的移动设备超过70亿台。每秒钟有超过 100 个装置接入互联网,而且这个数字还在增长。 思科预测,到2020年,“万联网”(Internetof Everything)会连接500亿个装置。

总而言之,数据正在以难以想象的速度膨胀,现在每天新产生的数据量高达 2.5 个艾字节。 一个艾字节是1后面加18个0。1986年,如果把电脑里储存的所有数据双面打印出来,其面积将足以覆盖地球陆地表面这种增长是呈几何级的,现在,数据总量每三年就会翻一番。

你应该承认,现在,大数据最具权威性。在每篇新闻报道中,在每次科学演示中,在每个分析解决方案的广告词中,大数据都是关键词。这是危机,是机遇,是机遇的危机,危机的机遇!

大数据不是真实的存在。数据最激动人心的不是其数量,而是其增长速度。我们会永远敬畏数据的庞大数量,因为有一点永远不会变,那就是:今天的数据必然比昨天多。规模是相对的,而不是绝对的。如果我们今天使用“大”,那么很快,我们的形容词就会不够用了:“大数据”、“更大数据”、“再大数据” 以及“最大数据”。其实,早在 1975 年,一个名为“国际超大型数据库大会” 的组织就已成立。在海量数据面前,我们的词汇量显得如此匮乏。

那么,接下来的问题是,我们要如何处理这些数据才能获得最大的价值?

数据效应:数据天生具有预测性

小腿骨连着膝盖骨

膝盖骨连着大腿骨

大腿骨连着你的骨盆

——《小骨头之歌》歌词

数据简直铺天盖地,但这又如何?谁又能保证这堆企业机构经营的副产品能创造价值呢?这些只不过是无穷无尽的记录列表,是对过去发生的事物进行的强迫性的记忆堆积。

世上万物均有关联,只不过有些是间接关系,这在数据中也有所反映。例如:

? 你的购买行为与你的消费历史、 在线习惯、 支付方式以及社会交往人群相关。 数据能从这些因素中预测出消费者的行为。

? 你的身体健康状况与选择和环境有关, 因此数据能通过小区以及家庭规模等信息来预测你的健康状态。

? 你对工作的满意程度与你的工资水平、 表现评定以及升职情况相关, 而数据能反映这些现实。

? 经济行为与人类情感相关, 正如下文所述, 数据也将反映这种关系。

预测常常从小处入手。预测分析是从预测变量开始的,这是对个人单一值的评测。近期性就是一个常见的变量,表示某人最近一次购物、最近一次犯罪或最近一次发病到现在的时间,越接近现在,观察对象再次采取行动的概率就越高。许多模型的应用都是从近期表现最活跃的人群开始的,无论是试图建立联系、开展犯罪调查还是进行医疗诊断。

与此相似,频率—描述某人做出相同行为的次数也是常见且富有成效的指标。如果有人此前经常做某事,那么他再次做这件事的概率就会很高。实际上,预测就是根据人的过去行为来预见其未来行为。因此,预测分析模型不仅要靠那些枯燥的基本人口数据,例如住址、性别等,也要涵盖近期性、频率、购买行为、经济行为以及电话和上网等产品使用习惯之类的行为预测变量。这些行为通常是最有价值的,因为我们要预测的就是未来是否还会出现这些行为,这就是通过行为来预测行为的过程。正如哲学家萨特所言:“人的自我由其行为决定。”

预测分析系统会综合考虑数十项甚至数百项预测变量。 你要把个人的全部已知数据都输入系统, 然后等着系统运转。系统内综合考量这些因素的核心学习技术正是科学的魔力所在。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 人工智能 运维
大数据分析:探索信息世界的钥匙
在当今信息爆炸的时代,大数据分析成为挖掘宝藏般的技术和方法。本文将介绍大数据分析的基本概念、技术与方法,并探讨其在商业、科学和社会领域中的广泛应用。从数据收集和预处理到模型构建和结果解读,大数据分析为我们揭示了信息世界的钥匙,为决策者提供了有力的支持。
|
2月前
|
SQL 存储 分布式计算
maxcompute配置问题之配置mc内容如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
30 1
|
7月前
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
475 0
|
4月前
|
数据采集 数据可视化 数据挖掘
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
83 0
|
4月前
|
数据采集 分布式计算 数据可视化
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
75 0
|
4月前
|
SQL 分布式计算 MaxCompute
这些警告信息是MaxCompute在执行SQL查询时生成的
这些警告信息是MaxCompute在执行SQL查询时生成的
34 3
|
4月前
|
监控 安全 Java
【Java】Spring Cloud 智慧工地信息云平台源码(PC端+APP端)项目平台、监管平台、大数据平台
【Java】Spring Cloud 智慧工地信息云平台源码(PC端+APP端)项目平台、监管平台、大数据平台
80 0
|
5月前
|
搜索推荐 大数据 数据处理
大数据:解析信息时代的数字浪潮
大数据:解析信息时代的数字浪潮
44 0
|
5月前
|
SQL 分布式计算 调度
在MaxCompute中,你可以通过SQL语句来查询和导出实例的运行状态和时间等信息
在MaxCompute中,你可以通过SQL语句来查询和导出实例的运行状态和时间等信息
50 5
|
8月前
|
存储 数据可视化 大数据
大数据:挖掘无尽的信息金矿
大数据已经成为数字时代的重要驱动力,它不仅改变了我们的商业模式、科学研究和社会运作方式,还为创新和发展带来了无限的机遇。通过分析和利用大数据,我们能够更好地了解世界的运行规律,做出更明智的决策,推动社会的进步。
93 2