大数据介入天文学:未来的宇宙探索拥有无限可能

简介:

5月27日消息,据国外媒体报道,海量数据正改变人类观察宇宙的方式。人们一直认为天文学就是一门观测星空的科学,但如今各种来源提供的无尽信息产生了一种分析太空的新途径。

例如,哈勃太空望远镜是大量太空照片底片的宝库,有望揭示许多过去没能识别出来的星体。再如,来自美国航空航天局(NASA) 的数据资料,通过现代工具的重新处理和分析后,极具研究价值。这促成了一类新型天文学家的诞生,他们不必再仰望天空,笔记本电脑就能满足他们的工作需求。 可以说天文学正产生一种以数字化数据为根基的分支。而数据一直是天文学的核心,这也需要天文学家拥有分析海量数据的能力。

20世纪60年代,太空时代才刚刚开始,天文学家们经常面临数据过少的问题。当时他们对太阳系和宇宙有着许多疑问,但其中获得解答的却不多。20世纪70年代,天文学家开始意识到积累大量数据的必要性,并开始制定标准化的数据形式。

对数据进行规范化处理非常重要,否则很难在不同天文学家之间分享数据。例如,两个天文学家想要共事,但他们来自两个不同的机构,使用的是两种不同的望远镜。如果没有一种标准化的数据形式,怎么展开共享和合作?

大量数据的存在使找到一种通用的编目系统(得到普遍接受的信息组织方式)变得很重要。

FITS (Flexible Image Transport System)是天文学界常用的一种开放式的标准数据格式。它可为某张图像提供大小、位置、距离以及其它研究者的评注等方面的元数据,图像中的相关文本尽 可能简单化,以便数年后仍可明了易懂。FITS这样的系统使数据的适用范围变大,省却了转换数据形式的时间。这类系统也开始对数据进行简化处理,系统开发 者创造了相关方程式、流程和程序对数据展开合理的缩减。

“数据洪水”或“数据爆炸”早已成为天文学界的常见词汇。到了20世纪80年代和90年代,天文学家开始讨论在将全球范围的数据库整合在一起的可能性,但由于资金的匮乏,这一想法从未得到实质性的进展。与搭建一个新天文望远镜或执行新太空任务相比,整合数据库往往成为最无关紧要的事项。

天文学界的数据容量是惊人的。迄今为止,科学家已经在太阳系以外发现了1800多颗经证实的行星。其中1000多颗是由开普勒太空望远镜在2009至2013年四年间发现的。在此期间,它成功地收集了大量的数据。系外行星只是这些数据所能揭示的太空秘密的一小部分。数年积累的数据可供天文学家们慢慢梳理和研究。而且开普勒所收集的这些数据非同寻常,它们是只针对太空某一区域展开的大型观测,这开创了一种相当独特的观测模式。它通过测量光的细小变化来寻找行星的存在。

在 对这些数据进行短短两年的研究后,NASA将之公诸于众——不仅仅是研究者,普通大众也能获取这些数据。全民科学组织Zooniverse研发了一个名为 Planet Hunters的工具,通过这一工具,天文学家足不出户就可以寻找下一个类似地球的行星。NASA最近发布了一个可在电脑中使用的寻找小行星的工具。天文数据以在线形式供大众使用,这意味着任何人都可以参与其中。

庞大的观测数据库为天文学的未来带来了无限的可能。哈勃太空望远镜留下了几十年的天文数据,而且绝大多数还没经过研究。其中包括了许多遥远星云星系或一闪而过的天文现象的图像。哈勃团队的一名科学家卢博(Lubow)正致力于将哈勃的数据转移到一个公共数据库项目中,使研究者更容易获取这些现有的数据,以验证假设,减少研究时间。

这一切都使人们有可能成为一种专门以数据库为研究方向的天文学家。而大数据项目则使观测天文学成为信息储存库的来源。

射电天文学是 通过观测天体的无线电波来研究天文现象的一门学科。对这门学科而言,数据带来诸多可能性。新近竣工的阿塔卡马大型毫米波/亚毫米波阵列(ALMA)望远镜 观测站不仅仅拍摄了天空,也记录了不同频率的不同波段,这需要更大更快的电脑来处理数据,但恰恰因为融入了超级运算,所得到的数据更丰富。

与 传统的观测方法相比,射电天文学能够监测到云层密度这样的不可见对象,或是远处模糊物体的构成。也就是说,通过收听某些化学性质的频率或观测星系结构中的 暗斑,就能透过云层判断遥远星系中星体的构成。通过更多的“收听”天线和更强大的计算机,便可以在很大的频谱范围内收集数据。

能够满足这种需求的超级计算机在过去15至20年才出现,这使研究者得以添加尽可能多的天线,使监测更为灵敏,太空的观测分辨率更高。分辨率变高,则意味着可观测更遥远的星体。

当然观测天文学绝非就此失去了存在意义。日渐精细的太空望远镜获得的数据拓展了现有的数据库,使人们得以探索更多的发现。例如,在柯伊伯带寻找矮行星原本是不可能实现的,但现在却可通过对大量储备的数据进行模拟操作来实现。

数据天文学不只是为了寻找彗星、小行星,它可以帮助研究者们寻找遥远的、适合生命生存的行星,或是寻找一些宇宙中最远古星体的线索。当前天文数据正变得更加开放、更易理解,天文学界的范畴随着电脑技术的介入而不断扩大。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据
《大数据原理:复杂信息的准备、共享和分析》一一0.6 大数据成为信息宇宙的中心
本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第0章,第0.6节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1011 0
|
物联网 大数据 新制造
|
SQL 分布式计算 架构师
微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙)
微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙) 参考:http://www.quora.com/Distributed-Systems/What-is-Microsofts-Cosmos 宇宙是微软内部大数据分析平台。
993 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0