《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合

简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5 交流融合

商界、政界和学术界的正式和非正式交流活动正日益融合。企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网、社交网络、博客、微博和视频频道上进行宣传。传统意义上,政府必须为省会城市的居民和个别社区提供服务。随着电子政务的发展,政府也必须在网上提供24/7的公共服务。同样,除了领域内文献之外,学者还可以通过网页、预印服务器、数据档案、机构知识库、幻灯片和图表、博客和微博、社交网络及其发明的其他媒介来发挥影响力。新技术加速了新通信方式的产生,但也破坏了现有模式的稳定性。在将旧模式映射为新模式的过程中,数据隐喻成为压垮旧模式的最后一根稻草。

3.5.1 数据隐喻

“数据发表”(data publication)和“发表数据”(publishing data)等隐喻,混淆了出版物和数据在学术交流中的作用。正如第三项挑战阐述的那样,这些隐喻简化的假设前提对新型学术交流模式构成了一定风险。
从严格意义上来讲,发表(publishing)的含义是“使公之于众”(to make public)。因此,其包括多种行为。但是,学术界的发表一般有三个功能:(1)合法化,(2)传播,(3)获取、保存和监护(Borgman 2007)。第一个功能往往通过同行评审完成。记录文件是典型的固定出版物,这类出版物展示了合法化过程,即把同行认可的质量和信任标记授予出版物。引文是合法研究记录的重要组成部分。传播功能的重要性不言而喻。因为只有与其他人交流成果时,研究才真实存在(Meadows 1974,1998)。出版商通过期刊、书籍、会议论文以及其他形式传播研究。作者则通过向同事分发、发布和在会谈、博客、社交网络中提及出版物等方式传播自身作品。第三个功能使作品易获取、易发现,同时确保备份,而且往往还要确保监护副本以供长期使用。后者往往由作者、出版商和图书馆共同负责。由于出版物是招聘、晋升等奖励认可的主要形式,所以学者具备发表作品的动机。
与期刊、图书发表类似,数据发表这一隐喻只有在狭义情况下才有意义。例如,经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发表了GDP、就业、收入、人口、劳动力、教育、贸易、金融、价格等大量国内和国际统计数据。各种政府机构都会发表普查数据等类似统计数据。学术领域之外的数据发表的含义有所不同,其可以指对包含列表、事实或广告的文档进行分发。自1986年以来,名字含有“数据发表”字样的公司都一直从事于当地电话号码和类似信息的目录编制工作(Data Publishing 2013)。
数据发表这一隐喻在广义范围内并不成立。一般而言,它可以指发表与某篇独立期刊论文相关的数据集。数据可能附属于文章,但很少有单独面向数据的同行评审,因为很难对数据进行评估。如果从这种意义上对数据发表进行理解,那么数据通常归档存储并链接到文章,而非独立的发表单元。我们可以发现或监护数据集,但无法将其作为独立实体进行分发,其本身也无法像期刊论文那样实现自描述。数据发表也包括将数据发表在作者的个人主页上。这种情况下的数据发表并没有发挥出上述“发表”三个功能中的任何一个。某些情况下,该术语也指采集、归档数据并供其他人访问(PANGEA:Data Publisher for Earth & Environmental Science 2013)。我们可以进行数据发现和监护工作,但同行评审和传播都不是大多数数据存档的核心工作。
支持该隐喻的论据是熟练度,即学者均明白如何进行文章的发表和引用。此论据意味着,学者的熟练度将推动数据发表的进一步发展(Crosas et al. 2013;Klump et al.2006;Lawrence et al. 2011;Murphy 2013;Parsons and Fox 2013)。虽然人们经常将这种观点作为事实进行阐述,但却很难找出数据引用推动数据发表的论据。现在有很多出版商对数据进行包装,并将其作为独立单元进行传播。数据发表的隐喻也引起了这些出版商的兴趣,从而进一步扩展了当前的商业模式。
该隐喻的负面论据也很多且依旧存在。呼吁每篇期刊论文都发表数据有一定风险,因为这种情况下的文章和数据集之间建立了二元链接。某些领域存在二元关系且论文可通过数据集进行再现,这些领域的二元映射将进一步服务于社区发展。但就像在第9章中讨论的那样,这样的领域很少且彼此之间相距甚远。庞大知识基础设施是提升这种一一映射方式效率的必备条件,具体包括数据集的同行评审、可用知识库、构建链接的期刊政策和技术、访问所需的软硬件以及重现所需的其他设备。
期刊论文和数据集之间的一一映射关系只是多种可能的关系之一。二者之间的关系一般都是多对多。目前,我们仍然无法在给定出版物的条件下,明确其相关的所有数据和信息资源。从某种程度上来看,直接链接在发现和重现过程中发挥着重要作用。但如果出于其他目的,需要对数据进行挖掘和重用,那么一对一的链接体系结构就会成为重要的限制因素。开放数据运动以多源数据的集成和比较为基础,而这一切都需要开放技术。
帕森斯(Parsons)和福克斯(Fox)(2013)提出了数据管理五大隐喻,他们认为这五个隐喻都存在一定问题且并不完整。“数据发表”就是第一个隐喻。第二个隐喻是“大数据”(big data)或“巨铁”(big iron),指天文学、气候科学和高能物理学等类似领域中,与数据相关的工业生产和工程文化。该隐喻与质量保证、数据简化、版本问题、数据和元数据标准以及高吞吐量等问题相关。“科学支持”(science support)是第三个隐喻,在野外生态学等领域中,存在科学很难从数据中分离出来或者数据采集者很难从数据保管者中分离出来的现象。“地图制作”(map making)是第四个隐喻,具体指地理空间数据,这些数据对气候模型、土地利用、调查等问题的研究非常重要。研究人员最终将这些数据集成在图层中,以地图而非文章或论文的形式进行发表。
“链接数据”(linked data)是最后一个隐喻。其是数据集和出版物的一种链接方式。但同时也是一个更宏大运动的组成部分,该运动将有关联的数据单元、出版物和文档聚集起来。链接数据的概念是语义网的基础。为提高效率,链接数据需要基于组织的图模型展开,同时需要在本体和标准问题上达成一致。相比于数据保存、监护和质量保证,开放数据才是这个观念的核心。

3.5.2 数据单元

数据隐喻对数据传播、引用、使用及监护的单元进行了合理的简化假设。数据的表示单元大小不一,如像素、光子、字符、笔画、字母、单词、电子表的单元格、数据集或者数据档案等。甚至数据集(dataset)这一术语的含义也尚未确定,其常见的主题至少有四个,即聚集、内容、相关性和目标。每个主题之下还包括多种类别(Renear,Sacchi, and Wickett 2010)。数据集的大小从几个比特到多个TB不等,但均可看作独立对象。数据的使用目标决定了数据单元是否合适。有时,聚合多个数据单元有助于数据比较和挖掘工作,但有时候,从大量资源中进行抽样提取反而更有帮助。
印制品是书和期刊论文唯一便捷的交流单元,但现在可以将其分解为更小的单元。编辑人员认真对多篇文章进行集成,从而形成以期为单位的期刊。搜索引擎将文章作为独立实体进行检索,而非某期杂志的一部分。这些文章中的每个表、图和数据集都有标识符,因此,我们可以在研究方法、理论和结论等背景环境之外,对其进行独立检索。书籍、期刊论文以及其他形式的文本可以作为独立数据单元或数据进行聚合,通过词、短语或字符串进行搜索。
随着学术研究内容的不断细化和数据范围的不断扩大,出版等正式交流方式和演讲、会谈等非正式交流方式之间的界限越来越模糊。期刊论文、预印本、手稿、博客帖子、幻灯片、表格、数字、会议视频演示、推文、Facebook和LinkedIn帖子等实体可以独立分发。幻灯片和图片等公开知识库虽然要付费使用,但由于其易存储易获取且含有其他地方很少发布的对象,所以这些知识库依旧十分风靡。数字对象的使用和链接都很灵活,从而推动产生了新型交流方式。例如,当期刊以出版彩色图表(甚至只有电子档)为由索取大量版面费时,作者可以考虑只在期刊上发表黑白版论文,同时通过其他途径存储或发表全彩图片。因为彩图是解释研究发现必不可少的部分,所以,作者们选择了一种可负担得起的方式来满足读者需求。这种做法至少在短期内依旧可行。但单独发布的图表很难进行长期保存,而且图表和论文之间的对应关系也很容易丢失。
上述图表和论文之间对应关系丢失的问题又叫解聚(disaggregation)问题,解决这种问题的一般方法是内容重聚(reaggregation),具体包括重建各部分之间的原始关系以及创建新型聚合关系两方面。可以使用链接数据的方法重构学术价值链,其可以链接文章、数据、文档、协议、预印本、演示文稿等其他单元。这种方法适用于易联网的单元,但并非资源跨系统、跨服务链接的通用方法(Bechhofer et al. 2013;Goble,De Roure,and Bechhofer 2013;Pepe et al. 2010;Van de Sompel et al. 2012)。同理,开放文献的数据挖掘可以识别文本、表格和图片中的数据,却不能识别补充材料或档案中的数据。单一方法不能同时解决解聚、重聚、引用和出版单元等问题(Bourne et al. 2011;Parsons and Fox 2013;Uhlir 2012)。

3.5.3 记录文件

因为学术交流可以分散进行,可以传播,也可以按照新方式重新聚合,所以很难对论据型记录进行维护。参考对象不复存在,实体间的链接断开,搜索算法的发展更具有专有性和机密性。由于同一数据在不同环境中发挥着不同作用,所以数据的稳定性甚至不如出版物。即使经过长期发展,在特定地点和特定时间条件下,出版物依旧是固定单元。作品出版时,都会获得数字对象标识符(Digital Object Identifiers,DOI)、卷期号、页码,以及其他注册号等唯一、稳定的标识符。数据单元获得持久标识符的前提是,在特定时间、版本和格式条件下的含义保持不变。各个具体单元共同构成了庞大的论据链。
文件版本激增并非新问题。《纽约时报》等各大报纸一天就发布多个版本。印刷时代的记录文件是“城市晚报”(the late city edition)。在数字化时代,《纽约时报》面向当地、全国和全球不同读者,同时发布印刷版和电子版。每篇文章的不同版本会有所调整。
印刷时代的记录文件通常比较明确。期刊、会议、出版的图书等都是记录文件。文件一旦以印刷形式出版,就会永久处于已出版状态。参考文献的引文中需要标出所引作品的版本号。读者通过参考文献可以理解作品思想和论据的发展过程。多年之后,他们甚至依旧可以从图书馆、同事或书店那里获得所需作品的稳定副本。现在,如果期刊论文有印刷版的话,那么在印刷版发布前几周或几个月,网上都会有电子版发布。网上的电子版(在线版,online vision)至今还被认为是预览品,而印刷版才是真正的参考文献记录文件。在线版已逐步成为记录文件,DOI正快速取代卷期号和引文所在页码。
数据可以以表征其动态特征的方式进行传播,也可以通过期刊论文等静态形式进行传播,但前者更具优势。例如,《可视化实验期刊》在通过视频展示实验操作的同时,发布同行评审对该实验的评审报告(JoVE: Peer Reviewed Scientific Video Journal 2013)。作者通过3D PDF等交互可视化方式来增强出版物的感染力,使读者在文章中就能旋转天文数据模型(Goodman et al. 2009)。还有很多类似实验正在进行中(De La Flor et al. 2010;Dutton and Jeffreys 2010;Wouters et al. 2012)。
除了期刊、书籍等正式出版物外,研究方法和研究结果也可以通过其他手段进行传播。例如,短视频就是一种展示实验技术的通用方式。其他概念可以通过图纸和旁白进行说明。搜索关于蛋白质组学、微分方程、计量经济学或文本互涉的视频网站时,系统会产生多条免费记录,而且部分记录已被访问过约50万次。作者正通过社交媒体宣传其作品,读者也正使用社交媒体学习新想法、新发现和新技能。推文和博客帖子为学术内容提供了重要的提醒服务。《科学》举办了一个广受欢迎的年度比赛“与PhD共舞”(Dance Your PhD),博士生通过在比赛中提交简短的音乐视频来展示其论文(Bohannon 2013a)。虽然这些资源目前可能仍处于学术发表的边缘,但它们在学者们赖以生存的知识基础设施中正发挥着越来越重要的作用。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
安全 网络安全 云计算
云端守护:云计算与网络安全的融合之道
在当今信息时代,云计算与网络安全已经成为技术领域中不可分割的一部分。本文将探讨云服务、网络安全以及信息安全等方面的技术发展,重点探讨如何通过云计算来加强网络和信息安全的保护,为构建更安全的数字化未来提供思路和解决方案。
|
1月前
|
人工智能 安全 网络安全
云计算与网络安全:技术融合的未来
随着信息技术的不断发展,云计算和网络安全作为两大领域在当代社会中扮演着至关重要的角色。本文将探讨云计算与网络安全之间的紧密联系,以及它们在信息安全领域中的相互影响和未来发展趋势。
|
1月前
|
安全 网络安全 云计算
云计算与网络安全:技术融合下的信息保障
当今数字化时代,云计算与网络安全已经成为关乎国家和企业未来发展的重要议题。本文将深入探讨云服务、网络安全和信息安全等技术领域的最新发展,以及如何在技术融合的大背景下保障信息安全。
24 3
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
1月前
|
机器学习/深度学习 算法 计算机视觉
|
10天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
14 3
|
13天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
29天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
在当今数字化时代,云计算与网络安全已成为信息技术领域中不可或缺的重要组成部分。本文将探讨云服务、网络安全和信息安全等技术领域的发展现状,分析技术融合带来的挑战与机遇,以及如何应对日益复杂的安全威胁。
15 1
|
1月前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【2月更文挑战第30天】 随着信息技术的飞速发展,云计算已成为企业和个人存储、处理数据的重要选择。然而,这种便利性并非没有代价,云服务的广泛应用也带来了前所未有的网络安全挑战。本文深入探讨了云计算环境中的网络安全问题,包括数据的私密性、完整性和可用性威胁,以及为保障信息安全而采取的各种技术和策略。文章还分析了当前云服务模型中的安全漏洞,并提出了一系列创新性的解决方案,以增强云环境的安全性。

热门文章

最新文章