读书笔记2013第16本:《删除:大数据取舍之道》

简介:

这本书是看《大数据时代》后加入到待读书单中的,我想看看作者是如何从数GB的照片中只保留最有用的几MB的照片的,后来找到了kindle版的电子书,就读来试试,说实话,这本书写得是相当的啰嗦,来回地重复“遗忘”和“记忆”这两个词,不断地强调人类默认的状态是遗忘,而不是记忆。对于这种书的办法,利用快速阅读技巧,我也读得飞快,也把书名所说的“删除”技巧,大段大段地略过,只记下了零星的有点启发的句子。对于研究“数据隐私问题”的专家可以慢慢地理解他的观点吧。

 

对于人类而言,遗忘一直是常态,而到了现在这个时代,记忆变为了常态,大量的东西都有了数字痕迹,想要遗忘反而并不太容易了。数字技术已经让社会失去了遗忘的能力,取而代之的则是完善的记忆。

当你在当今的网络上留下了一句流言蜚语,而这句话却一直保留得比你的寿命还长,你还敢随便发表观点吗?你留在网络上的电子足迹将有可能在某一天对你造成伤害。你的博客、微博、评论或者一个网名可能都会都对你造成伤害,包括这篇短短的读书笔记?

书中说到:很可能会出现一种第三方设备,它们不仅能够获得我们在何地的完整数字化记忆,还能够获得我们在何时,以及如何与我们身边的东西进行互动的数字化记忆。这难道不是指穿戴式的手环或是手表吗?

完善的数字化记忆,可能会让我们失去一项人类重要的能力----坚定地生活在当下的能力如果我们没有遗忘的能力,那么每当面临抉择时我们往往都会回忆起我们过去所有的选择,这可能将会使我们犹豫不决。

在大数据时代,还要想办法让某些信息有遗忘的功能。作者在最后一章提出了几点想法,但现在看来还不容易做到。

让事情记忆下来的历史演变,从口头相传、绘画、文本、书籍,到了现在的数字信息。以前的各种信息在多次复制后都会有噪音的加入或质量的损失,而现在的数字时代却避免了噪声的加入,几百万次下次后,仍是那个文件,那个精确的文件。

一旦一个人已经分享了信息,这个人就基本上失去了对该信息的控制。

 

信息提取时可能会断章取义,因为在信息提取的过程中,很多信息去掉了语境,或者改变了语境,虽然花上足够的时间可能会找到某段话的源头,但在大数据时代,想找到一条信息的源头将变得不再可能。

 数字痕迹使“一个人的生命拥有某种意义”,因为使用了数字存储器,就算有一天我们去世了,我们的思想、情感和经验依然不会遗失,仍然能被子孙后代所运用。借助这些,我们能够继续活着,逃脱了被遗忘的命运。

如今遗忘已经变得昂贵而又困难,记忆反而便宜又容易。U盘的容量越来越大,而价格越来越便宜!

保留过去详细邮件或日志也有坏处:当你查询某个人的信息时,结果查到了很久以前的一个不愉快的经历,本来这件事已经在你的头脑里几乎不存在了。但这些外部刺激,却帮我们重新激活了那些原已淡忘的负面记忆。

给定过去的一个时间点,让人类去想想那天发生的事情是非常困难的(但对于重大的事件是个例外,例如911),所以时间对于人类而言,是一个非常难以掌握的记忆维度。

作者提出了一个观点,为了让数字系统有遗忘的功能,要给文件存储系统设定一个存储期限,到时该文件将自行销毁。

看到DRM系统,查了一下,英文全称Digital Rights Management, 是指数字版权管理,但好像不太成功。

在大数据时代,一些大公司看来也有脆弱的一面,google保存了大量的信息,但如果google滥用个人信息,一旦你失去了对google的信任,这将是他们的末日。从本书中了解到,原来google从2008开始只保存9个月的用户搜索记录,以后要对信息进行模糊化处理。

 本文转自申龙斌的程序人生
博客园博文,原文链接:http://www.cnblogs.com/speeding/p/3416044.html,如需转载请自行联系原作者

http://www.cnblogs.com/speeding/ 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
|
9月前
|
数据采集 存储 消息中间件
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
|
存储 分布式计算 安全
【读书笔记】大数据原理与应用:分布式文件系统HDFS
【读书笔记】大数据原理与应用:分布式文件系统HDFS
124 0
【读书笔记】大数据原理与应用:分布式文件系统HDFS
|
存储 SQL 分布式计算
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
158 0
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
|
存储 大数据
【读书笔记】《大数据之路》——维度设计总结(3)
【读书笔记】《大数据之路》——维度设计总结(3)
|
存储 大数据 数据库
【读书笔记】《大数据之路》——维度设计总结(2)
【读书笔记】《大数据之路》——维度设计总结(2)
|
存储 大数据 OLAP
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0