如何管理非结构化互动数据

简介: 本文讲的是如何管理非结构化互动数据,非结构化数据仍在持续增长,而且增长势头似乎毫不减弱。事实证明,对这类数据制定政策和分级将是一项异常艰巨的工作。而且大部分人事后并没有回顾和分析哪些数据应保存在哪里,保存多久的时间以及如何保证它们的安全性。

本文讲的是如何管理非结构化互动数据,【IT168 资讯】非结构化数据仍在持续增长,而且增长势头似乎毫不减弱。事实证明,对这类数据制定政策和分级将是一项异常艰巨的工作。而且大部分人事后并没有回顾和分析哪些数据应保存在哪里,保存多久的时间以及如何保证它们的安全性。在当前这种紧缩时代,这项工作也很艰巨。 这些近似命令如何执行? 如果我们用互动的方式来管理数据,会怎么样? 

  互动数据管理会在你保存数据的同时给那些数据制定政策和赋予信息,无需使用专门的文档管理软件。正如我们在 《George Crump:云计算数据需要第三方保障》中所说,大部分归档系统都有一个API或者使用了一个开放访问协议如WebDav。 在移动到云归档的过程中,如果你能同时设定数据集的政策会怎么样呢?

  例如,当你归档一个项目时,作为归档作业的一部分,如果你能轻松设定各项参数,比如它在被永久删除之前应该在归档中保存多久的时间、它的只读或WORM状态应该保留多久的时间、该项目的副本应该保留多少份、那些副本能否分散保存、副本的数据以后是否应减少、数据是否应压缩和重复删除、数据是否需要以原始状态保存等等,那么情况会怎么样呢? 最后你或许想给该项目增加一些关键字,以便建立索引和检索。

  在数据刚刚生成时便用互动的方式设置这些参数可以让数据分级和数据政策执行变得更容易。这样还可以将数据分级和保存分成更小的任务。 大规模的任务通常很难做好,但是小任务往往就可以轻松完成。

  而且这还可以逐步发展成一项由用户来完成的功能。例如,我也许会在一个月之后参考包含这篇博客文章的文件,但是我想不用说一年两年,六个月之后我可能就不会那么做了。 然而我的所有数据都通过一款本地代理软件复制到了云中。许多云存储服务如Dropbox或Soonr都提供了将数据复制到云中的代理软件。 如果那些代理软件可以在我保存文件时允许我设置上述参数,我就可以让数据管理变得更轻松容易一些。

  你可以在数据中心将文件的各种参数进行分类,就象保存文件一样;如果自动分级可以扩展应用到数据中心,那就可以极大地减轻存储经理的工作量。互动数据管理可以制定分类和保留政策,并自动完成某些与文件有关的工作。


原文发布时间为:2009-09-11
本文作者: IT168.com
本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。
原文标题:如何管理非结构化互动数据
目录
相关文章
|
4月前
|
数据采集 监控 数据挖掘
如何更有价值采集电商数据,高效分析数据?
大数据,就是在一定时间范围内用常规工具软件对历史数据捕捉、处理,加以分析,进而改善决策和管理。在大数据时代,企业必须用大数据分析方法来做电商。
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
1976 0
用户画像标签体系——从零开始搭建实时用户画像(三)
|
2月前
|
数据可视化 数据挖掘 BI
数据分析案例-某公司员工数据信息可视化
数据分析案例-某公司员工数据信息可视化
52 2
|
8月前
|
SQL 分布式计算 运维
开源大数据分析实验(2)——简单用户画像分析之加工数据
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
|
11月前
|
机器学习/深度学习 分布式计算 并行计算
大数据开发,如何发掘数据的关系?
数据之中蕴藏关系,数据量足够大,这种关系越逼近真实世界客观规律。 网页之间链接关系蕴藏着网页重要性排序关系,购物车商品清单蕴藏着商品关联关系,通过对这些关系的挖掘,可帮助我们更清晰世界规律,并利用规律提高生产效率,改造世界。
88 0
|
消息中间件 SQL 运维
如何设计实时数据平台(技术篇)
本文从技术角度入手,介绍RTDP的技术选型和相关组件,探讨适用不同应用场景的相关模式。
|
机器学习/深度学习 SQL 算法
基于阿里云平台进行游戏数据分析(二)
在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第二部分,主要介绍绘制散点图,建立回归模型,检测变量之间的线性关系。
310 0
基于阿里云平台进行游戏数据分析(二)
|
机器学习/深度学习 数据采集 SQL
基于阿里云平台进行游戏数据分析(一)
在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第一部分,主要介绍项目的背景,数据导入与预处理等环节。
320 0
基于阿里云平台进行游戏数据分析(一)
|
SQL 机器学习/深度学习 分布式计算
基于阿里云平台进行游戏数据分析(三)
在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第三部分,主要介绍对游戏数据进行相关性分析和对比分析,并得出结论。
184 0
基于阿里云平台进行游戏数据分析(三)
|
存储 SQL 分布式计算
多引擎集成挖掘湖上数据价值
在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
多引擎集成挖掘湖上数据价值