苍茫宇宙吧 关注:7贴子:121
  • 5回复贴,共1

来自宇宙的数据洪流

只看楼主收藏回复

数字巡天和实时望远镜观测正在引发一场前所未有的数据洪水。埋藏在这些数据中的可能有宇宙学中最大谜题的答案。对于工作在美国宇航局(NASA)国家空间科学数据中心的科学家来说,一场信息革命从2000年起便悄然而至。在一个会议上,有一位天文学家询问,这个中心是否能放下由晕族大质量致密天体巡天——专门用来研究仅发出少量光线和其他辐射的神秘天体——所收集的1万亿字节的数据。虽然今天许多台式计算机的硬盘就能放下1万亿字节的数据,但对于当时的这个数据中心来说却是不可能的,因为在此之前的45年中NASA所收集的数据总量也只有1万亿字节。


IP属地:山西1楼2014-06-15 14:55回复
    一个实验所产生的数据就相当于之前15,000个实验的总和。于是有人意识到,科学界必须要做点什么,不但把使所有这些数据提供给科学家,而且还要能从所有这些信息中做出科学发现。
    在随后的十年中,天文学家所使用的工具发生了彻底的变化,而我们对宇宙的认知也跟着发生了翻天覆地的改变。用照相底片来辛苦地拍摄天空的日子已经一去不复返。今天地球上和太空中的天文台可以让天文学家从射电波到γ射线纵览整个宇宙。而随着数字化探测设备的发展,计算机取代了原先的暗室。这些新生力量为了解我们的宇宙提供了一条更有意义的途径,但它们同时也引发了一场骇人的数据洪灾。惊人的发现也许就在其中,但你必须要先梳理所有的数据。
    从2000年起,耗资8,500万美元的斯隆数字巡天(SDSS)已经拍摄了超过三分之一的夜空,获得了超过930,000个星系和120,000个类星体的信息。对SDSS庞大数据的计算分析发现了一些已知最年老天体的证据、确定了绝大多数大型星系拥有超大质量黑洞、甚至还测定出了局部宇宙的三维结构。在SDSS之前,单个天文学家或者小组占据了天文学。你要申请望远镜的使用时间,获得你的数据,然后再对其进行分析。之后SDSS问世了,突然间有了为了某个目的而获得的大量数据,但人们却把它们用到了其他各自感兴趣的研究上。因此,天文学的研究方式出现了巨大的改变,即便不属于某个项目的天文学家也能提出全新的问题、做出崭新的发现。


    IP属地:山西2楼2014-06-15 14:56
    回复
      SDSS:宇宙制图家  斯隆数字巡天(SDSS)始于2000年,昭示着海量数据天文学时代的到来。多年来,对于需要了解宇宙全局特征的天文学家来说,他们主要依靠的是20世纪50年代的帕洛玛照相天图。SDSS也观测了帕洛玛天图中的大量区域,但却把之前的照相底片换成了可以在任何地方更新和分析的数字图像。SDSS的科学家由此做出了一些惊人的发现。2000年,他们发现了已知最遥远的类星体。而独立于SDSS之外的科学家却根据它的数据已经发表了2,000多篇的科学论文,把SDSS的公开数据作为了他们研究的基础。另一个生动的例子是,天文学家由SDSS发现了“星流场”,这一群恒星分布的跨度长达近四分之一个天空。它们可能是小型星系被银河系吞噬时所产生的残骸。


      IP属地:山西3楼2014-06-15 14:58
      回复
        [图片说明]:斯隆数字巡天对天空的覆盖情况以及对其中某一块逐步放大的图像。版权:SDSS。
        在这其中,数据挖掘和其他信息学工具对于从基本的亮度测量中提取有用的信息进而得出新的科学结果起到了至关重要的作用。


        IP属地:山西4楼2014-06-15 14:58
        回复
          新一代的巡天将会观测并记录下数百亿个的天体。但问题是,在已知的宇宙中没有那么多的研究生能对它们进行分类。2019年当大口径全天巡视望远镜(LSST)在智利帕琼山上将其32亿像素的数码相机(世界上最大)对准天空的时候,它会以15秒的曝光时间拍摄一片比满月大49倍的天区,一个晚上拍摄2,000次。在其后10年中所拍摄的这些快照最终会被串编起来,构成一部可见天空的电影。每晚可以生成30万亿字节数据的LSST将会成为千万亿字节天文学的核心。
          洪水般的数据已经令过去为获得大型天文台那么一丁点观测时间就激烈竞争的天文学家们感到了势不可挡。有史以来第一次天文学家们不再能够检查并使用所有的数据。这不仅仅在于数据的数量,还关乎数据的质量和复杂性。一个大型巡天可能会观测数百万甚至数十亿个天体,而对每一个天体可能又会测量它的数千个特性。虽然有现成的数据挖掘程序包,但如果你想处理10亿个对象而每个对象又包含1,000个数据的时候,就算有世界上最大的超级计算机你也只能干瞪眼。其挑战是发展出适用于21世纪的新科学方法。


          IP属地:山西5楼2014-06-15 14:58
          回复
            宇宙摄像机  建在智利帕琼山上的大口径全天巡视望远镜(LSST)是一个价值4.5亿美元的庞大工程,它将真正把天文学和信息学揉合在一起。它的目标是探测暗能量和暗物质、对太阳系和银河系进行前所未有的详尽普查并且寻找天空中任何会变化或者移动的目标。
            [图片说明]:建在智利帕琼山上的大口径全天巡视望远镜。版权:Michael Mullen Design/LSST Corporation。装备有一面8.4米的主镜和一架世界上最大的32亿像素的照相机,LSST只要几个晚上就能获得和SDSS在8年的时间里所得到的一样多的数据。据估计LSST总共会观测到200亿个左右的目标,这将是第一次有一个巡天能观测到比地球上的人口还要多的天体。如此庞大而惊人的数字使得LSST也成为第一个把信息学融入其设计的天文项目,其中涉及到数据挖掘、机器学习、可视化研究以及除了天文学家之外的计算机科学家和统计学家。LSST会一丝不苟地对整个可见天空进行成像,最终会生成一部10年长的宇宙电影。这将导致研究天体快速变化现象——黑洞形成、超新星爆发——的时间域天文学和对地球构成潜在威胁的小行星以及位于海王星轨道之外的柯伊伯带天体的搜寻向前迈进一大步。
            这一方法的核心是被称为信息学的大批量数据处理技术。它已经改变了生物学和医学,使得科学家可以对数千种生物的脱氧核糖核酸(DNA)进行测序并寻找出与健康和疾病有关的基因线索。天文学家相信信息学也能为他们做同样的事情。基本的想法是用计算机来从过于复杂而人脑无法理解的原始数据中提取出有意义的信息。软件可以在几秒钟的时间里处理数万亿字节的数据,找出其中的规律和异常,对关键信息进行可视化,甚至在这个过程中“自我学习”。
            从这个意义上讲,信息学其实就是让天文学家能更快、更准确地去完成他们一直在从事的工作。例如,对于这天文学中的两大关键技术——分类和整合信息——而言,数据挖掘是有益的。这个天体是一颗恒星还是一个星系?如果它是一个星系,那它是旋涡星系还是椭圆星系?如果是椭圆星系,它是圆的还是扁的?就在不久之前,这些问题还是处理照相底片的人必须要回答的。当你手中只有数百个太阳系外行星或者数千颗超新星的时候,分类不是什么大不了的事情。但当你面对数十亿个天体的时候,它就会变得极其复杂而繁重。


            IP属地:山西6楼2014-06-15 15:01
            回复