大数据的阴影

简介:

这是一个大数据的时代,商业、社会管理、科研、创业,言必称大数据。

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。所以,大数据区别于以往的数据收集的最本质区别是,抛弃人类之前限于成本的的抽样分析方法,而是存储一切,分析一切。

大数据的理解

这种“数据全存”的收集,在互联网,甚至是移动互联网出现之前的时代是不可想象的。现在,随着储存能力、计算能力、互联网与移动互联网、智能手机的深入生活,收集数据的技术发达,充满生活中的各个场景,“把数据全部存起来”成为一种可能。

数据虽然存起来了,但如何理解数据,却成为一个问题。

在大数据的热潮中,人们开始相信,只要足够好的技术,足够多的数据,计算机能够比人更了解他们的自己。

有一个非常经典的例子。一位男性顾客到全美第二大零售商塔吉特店中投诉,声称商店竟然给他还在读书的女儿寄婴儿用品的优惠券。后来发现,女儿真的已经怀孕了。这被宣扬成为数据比人更理解人的例子。

实际上,情况恰好相反。商场知道女儿怀孕,无非是收集了顾客的消费数据发现规律。比如,孕妇在怀孕头三个月过后会购买大量无味的润肤露;在头20周,孕妇会补充如钙、镁、锌等营养素;当女性开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。然后,凭借这些信息,商场提前邮寄相关促销信息。

实际上,并不是大数据更理解人的例子,甚至反应了机器的愚蠢,自作主张,把婴儿的优惠用品寄给了还在读书的女儿,而且还寄到了她家里。当然,预测模型可以加入变量,比如年纪、职业、婚姻状况来避免尴尬。但是,人是复杂的,有很多非理性因素,无法加入所有变量。

大数据与计算能力的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术对海量数据进行分布式数据挖掘。但是,这种模式的计算能力仅是在数量上的增加。如果仍然是把数据放入模型,抽样虽然并不时髦,但边际效应仍然有效,少量的数量就能达到与大数据差不多的效果。

所以,只有应用各种新的数据处理方法,“数据”才能成为“大数据”,才能从中发掘出新的意义,进而产生新的价值。机器计算相比大脑的优势在与对于巨量数量的处理,如果机器也同时也能具有大脑的逻辑、分析、判断、联想、想象、情感能力,则可以轻易超越大脑的智能。

目前,依靠神经网络的机器学习,人工智能已经初步崭露头角。在这种方法之下,随着数据量的积累,系统会越来越好。相比过去人工智能的方法很难受益于数据量的提升,新的方法之下,20%的贡献来自方法的改进,80%来自数据量的提升,从而实现依靠数据量推动的,系统从量变到质变的飞跃。

但是,遗憾的是,机器的自主学习,自主对数据的理解,目前还限定在给定的范围内。目前的机器学习,基于模仿大脑神经的反馈机制,依据历史经验,人类的所有仿生工程学上的成功,取得飞跃,都是在彻底弄清楚生理过程的机制之后,比如,粗浅的模仿鸟的飞翔,可以造出飞行器,但飞机的基础,是空气动力学。现在人类大脑的脑科学的发展程度还远远不够,甚至可以说对大脑的运行过程知之甚少。从这个角度看,人工智能理解大数据还为时尚早。所以,人类对于大数据的利用,目前来看,基本上还是基于收集技术上的发展。基于大数据的人工智能,未必有那么乐观。目前看来,大数据还没有走出数据处理能力阴影的迹象。

大数据与隐私

不过,即使如此,变化早已发生。

这是一个大数据的时代,人人都在电子空间中留下了自己的痕迹。早上起来,打开手机,手机不断与基站联系,机主大概在什么地方,经过了些什么地方,就留下了痕迹;在路上,打开手机浏览器又再次留下cookie数据,浏览了些什么网页,很可能被别有用心者收集;或者交通卡,从哪里进哪里出,也被服务器记录;中午,吃了什么,信用卡可以查询到消费的场所,而饭店的记录,甚至能精确到吃了什么菜,几个人;在上班的时候,使用聊天工具,可能留下痕迹,很多单位,也有记录员工操作的软件;下班了,打车软件、聊天软件都可以上传GPS数据;晚上,在哪里开了房,不但有消费数据,也有摄像头精确记录。这些数据综合起来,不但可以清晰的描述一个人的生活轨迹、行为、甚至连爱好,乃至不愿意被人发现的隐私,在别有用心的收集之下,都是清清楚楚的。

不留下这些数据,个人在现在的技术社会中,就难以舒适生活,甚至难以生存下去。因为手机、出行、聊天、支付,乃至整个现代生活都是建立在这些数据之上的、不留下数据,就无法生活。这就是所谓的大数据时代,我们就生活在这样一个时代。

需要指出的是,这些数据,应该是与身份分离的。简单的说,就是收集数据的平台,即使能知道每天城市所有人的出行轨迹,但是,他们必须不能知道,每一条出行的轨迹所对应的人的身份。但是,实际情况却是,信息的泄露比比皆是。

实际上,在现代技术社会中,公民不被监控,只是由于不值得监控,或者在监控系统的概率之外。决定这个概率大小的,是监控系统的成本,比如硬件成本、软件成本,人员成本,乃至部门间的沟通、行政成本。成本变小,公民被监控的机率就会越大。大数据极大的降低了这一成本。这虽然带来了安全,却同时减损了公民的自由。

在911袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。在《爱国者法案》的授权之下,前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。比如,FBI调查人员秘密从美国各大图书馆搜集读者详细的读书记录,以判断是否受恐怖主义感染。该项目在一年后因国会担忧公民自由权而停止。

但是,不难预见的是,在大数据时代,公民的个人隐私与自由,会被越来越多的大数据阴影所包围。

不妨假设一下,2019年,苹果8发布,这时,手机已经不叫手机,而叫个人信息终端,人们可以在这上面完成一切;2025年,打车软件的大数据系统已经不需要个人发出打车需求,你出门的时候,就已经有车停在门口,并且知道你要去哪里;2032年,一个无远弗届的信息收集机制被建立起来,同年,国家统计局改名为国家大数据中心,一切已经不需要统计,一切发生的时候就已经被统计;2050年,市场取消,在大数据与智能制造的配合下,一切个性化的需求都可以被满足;2084年,时间回到100年前。

这一切会发生吗?应该不会,但是,某些令人忧虑的领域,却很可能比令人兴奋的领域,更早获得大数据的优势。

中国工业网是以工业新闻和信息传播为主业的综合性网络媒体。 作为国家工业和信息化部的合作伙伴,开发并运营了国家履行《禁止化学武器公约》工作办公室官方网站和履约信息管理系统。中国工业网拥有企业会员5万余家,个人会员50万人,合作协会100多家,合作媒体近千家。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 搜索推荐 大数据
大数据商业价值的宽度与厚度
大数据商业价值的宽度与厚度
大数据商业价值的宽度与厚度
|
机器学习/深度学习 算法 关系型数据库
大数据领域三个大的技术方向
大数据领域三个大的技术方向: 1、Hadoop大数据开发方向 2、数据挖掘、数据分析&机器学习方向 3、大数据运维&云计算方向 大数据学习什么 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。
2349 0
|
数据采集 物联网 大数据
|
数据采集 物联网 大数据
|
新零售 供应链 大数据
|
大数据 云计算 智慧交通