数据整理太繁琐?MIT发布能化零为整的分析系统

简介:

数据整理太繁琐?MIT发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余下20%的时间才是真正用来分析数据的。

这就是我们通常所说的数据分析过程,其实有一大部分时间都用在了前期的数据的收集和整理上。那么收集和整理又为什么如此耗时呢?

随着数字化和信息化的深入,目前的可用数据并非集中于一点,而是广泛分布在各种文件、电子表格、分布式数据库、数据湖和其他软件系统之中,数据科学研究者需要从各种渠道获取这些数据,过滤其中的有效部分,再将数据组织成便于处理的格式,这一系列的过程都需要耗费大量的精力和时间。

为此,一支国际化的科研团队近期发布了一个全新的大数据分析系统——Data Civilizer,试图解决这一难题。该系统免去了一定程度的整理过程,可以自动识别不同数据表格之间的内在联系,并允许用户以类似查询数据库的方式直接操作这些零散的数据表格。更重要的是,用户还可以将这些查询结果重新组织成一个有序的新数据库,以便进行后续的分析和处理。

这里之所以称Civilizer系统的研发团队是一支国际化的团队,是因为其主要成员并非来自同一个实验室或者同一所高校,甚至并非同一个国家。例如:来自CSAIL的博士后Dong Deng和Raul Castro Fernandez(他们同时也是论文的主要作者),上文提到的Sam Madden教授,以及其他6位来自柏林技术大学、南洋理工大学、滑铁卢大学和卡塔尔计算机研究所的科研人员。另外值得一提的是,尽管并没有参与论文的撰写,但来自麻省理工学院电气工程和计算机科学系的副教授、2014图灵奖获得者Michael Stonebraker同样也为这项研究做出了贡献。

麻省理工学院电气工程和计算机科学教授,CSAIL大数据教研室主任Sam Madden表示:“当前,由于有成千上万的数据被分散在各种软件系统中,因此要组织一个庞大的数据集非常困难。Civilizer系统可以帮助数据科学家快速找到包含相关信息的数据表格,并将这些表格集合在一起,创建一个完整的数据库,从而大大提高了大数据分析的效率。”

逐列分析

Civilizer系统假定其处理的所有数据都按照表格的形式组织。但正如Sam Madden所说,由于将数据转换为表格的技术在大数据领域并不是什么高新的技术,因此这一点并非新研究的重点。类似的,虽然Civilizer的系统原型可以从各种不同类型的文件中提取表格数据,但配合现有程序对数据进行处理却并非研究者的首要任务。“这部分只是工程上的工作,而并非科研上的。”Sam Madden教授表示。

Civilizer系统的核心优势在于逐列分析所有的数据表格,然后得到每一列的统计概要。对于数值数据,概要中可以包括该数值出现的频率、数值的范围、数值的基数、以及每列包含的不同数值的个数等。对于文本数据,概要将包含每列中出现频率最高的词汇,以及不同词汇的个数统计。此外,Civilizer系统还将对每个出现的词汇和包含这些词汇的表格生成一个索引目录。

此后,系统将对比所有列的统计概要,根据概要内容识别具有高度相似性的列(例如具有相似的数值范围、相似的词汇集合的列),并将这些单独的列两两一组,组成一个一个的“列对”。Civilizer会为每个列对分配彼此相似的权值,并在权值的基础上生成一个能够反映列与列之前的连接关系、表格与表格之间的连接关系的映射图。

自动识别相关性

这里可以通过一个例子来说明Civilizer系统的查询能力:假设一家制药公司有一些包含药物品牌名的表格,一些包含药物化学成分的表格,以及一些包含药物内部代号的表格。我们不妨称这些表格为1类,2类和3类。现在假定1和2从未出现在同一个表格中,但至少有一份表格反映1和3的对应关系,以及反映2和3的对应关系。那么当用户利用Civilizer对所有这些表格展开分析时,对1类的查询结果也可以包含2类中的信息。

需要指出的是,Civilizer系统的识别结果也有可能是错误的。但系统允许用户丢弃不恰当的查询结果,保留有效的数据。数据被裁减之后,用户还可以将结果保存为一个独立的数据文件,方便后续的使用。

Merck制药公司的高级信息分析师Iain Wallace表示:“Civilizer的技术非常有趣,它或许能帮助数据科学家解决由于可用数据越来越多而引发的一个重要问题:究竟哪些数据集应该被纳入分析之列。而且组织机构越庞大,这个问题就越严重。”

Sam Madden教授表示:“目前我们正在探索如何将Civilizer系统作为各种化学和生物学数据集之上的协调层。因为这些数据集通常需要将化合物、疾病和搜索目标联系在一起。一个典型例子就是当用户从一个化合物表格中找到某种特定的化合物后,常常还需要根据这种化合物在其他表格中搜索更多的附加信息。Civilizer系统允许用户对所有列数据进行全文搜索,并自动识别出相关列。通过Civilizer,我们可以方便地添加额外数据源,并快速更新之前的分析结果。”

civilize意为使之文明、使之开化,MIT将新系统命名为Data Civilizer,意思很明显,是希望通过这个系统让大数据处理变得更简单方便,为开发者简化数据的预处理过程,把更多精力和时间放在真正的数据分析过程中。我们希望以MIT的这项最新研究成果为起点,未来可以出现更多类似的数据处理工具,推动数据科学更快的向前发展。

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

雷锋网网

相关文章
|
2月前
|
数据可视化 安全 关系型数据库
写给工程师的 MacBook 商用级大模型知识库部署方案(上)
写给工程师的 MacBook 商用级大模型知识库部署方案(上)
213 2
|
6月前
|
机器学习/深度学习 人工智能 算法
深度探索数据聚合算法:提高文档管理软件整理效率的秘诀
在这个数字时代,文档管理软件成为了我们日常生活和工作中的强力伙伴。然而,随着文档数量的爆炸增长,文档的整理和分类变得越来越令人头疼。幸运的是,有了新一代的数据聚合算法,我们能够轻松摆脱繁琐的整理工作,使文档管理变得轻松愉快。接下来,让我们深入探讨一下数据聚合算法如何提高文档管理软件中的文档整理效率。
160 0
|
5月前
|
算法 Perl
技术下午茶:产品经理是如何工作的?如何才算一份好的需求文档?如何设计一个简单的列表,它应该具备哪些基本功能?
技术下午茶:产品经理是如何工作的?如何才算一份好的需求文档?如何设计一个简单的列表,它应该具备哪些基本功能?
59 1
|
2月前
|
NoSQL 关系型数据库 API
写给工程师的 MacBook 商用级大模型知识库部署方案(中)
写给工程师的 MacBook 商用级大模型知识库部署方案(中)
112 0
|
2月前
|
新零售 人工智能 供应链
写给工程师的 MacBook 商用级大模型知识库部署方案(下)
写给工程师的 MacBook 商用级大模型知识库部署方案(下)
96 2
|
4月前
|
安全 Windows
每天分享五款工具,让大家工作生活更顺心
快乐不是在于拥有什么,而在于我们和别人分享什么。每天分享五款工具,让大家工作办公更顺心就是我最大的快乐。
37 0
|
8月前
|
人工智能 机器人
AI智能自动交易量化机器人系统开发稳定版丨案例设计丨方案项目丨功能分析丨源码说明
When developing an AI automated quantitative trading robot system, it is first necessary to clarify the system's goals and requirements. Determine key factors such as the market, trading strategy, and risk control methods to be traded. Next, establish the basic framework for data acquisition and pro
|
10月前
|
存储 监控 安全
K公司项目文件管理系统的分析与设计_kaic
2020年的新冠疫情促进了线上办公市场的发展,加快了企业进入全面数字化时代的脚步。办公自动化是当今的大趋势,越来越多的企业采用电子文档的形式存储内外部资料。K公司是一家致力于为政府和企业提供数据安全服务的小型B2B企业,公司承接了数个比较大的项目。在新产品研发的过程中,常常遇到由于特殊需求而产生的定制化的开发,从而产生多个分支项目。如何利用MIS系统对不同分支项目产生的文件进行高效管理,是十分必要的研究方向。 本论文通过调查和研究K公司项目开发过程中文件管理的情况,针对公司对不同分支项目产生的文件进行高效管理的需求,详细分析了项目文件管理的业务流程和数据流程,着重强调了文件分类和项目管理等功能
|
存储 数据可视化 程序员
选择文库系统的时候需要重点注意和对比哪些东西?
本人程序员出身,接近15年的代码经验,对互联网产品和运营也一直在实践和研究,尤其是对文库产品有着深度理解,因为我自己也一直在运营文库项目。下面是我站在一个普通站长角度给出的一些经验,如果你也想做一个文库网站或文库平台,需要选择一套文库系统产品,请从下面几点出发去做对比,最终做出正确选择。
选择文库系统的时候需要重点注意和对比哪些东西?
|
数据安全/隐私保护
xczx项目问题集
xczx项目问题集
55 0
xczx项目问题集