下载本文的PDF版本 PDF

天文学档案如何才能在数据海啸中幸存下来?

天文学家正在收集比以往更多的数据。哪些实践可以让他们在数据洪流中保持领先地位?


G. Bruce Berriman,美国国家航空航天局系外行星科学研究所,红外处理与分析中心,加州理工学院
Steven L. Groom,红外处理与分析中心,加州理工学院


天文学已经充斥着数据:目前 1 PB(拍字节)的公共数据可以通过电子方式访问,并且这个数据量每年增长 0.5 PB。这些数据的可用性已经改变了天文学研究,STScI(空间望远镜科学研究所)现在报告说,使用存档数据集发表的论文比使用新采集的数据发表的论文还要多。17

随着 LSST(大型综合巡天望远镜)、ALMA(阿塔卡玛大型毫米波/亚毫米波阵列)和 SKA(平方公里阵列)等新项目投入运营,数据规模和预期使用量的增长将在未来几年加速。这些新项目将使用比现在使用的更大的望远镜和探测器阵列,或更高的数据采集率。预测表明,到 2020 年,天文学家将可以访问超过 60 PB 的存档数据。9


数据海啸已经登陆

数据海啸已经影响了天文学档案和数据中心的性能。一个例子是 NASA/IPAC(美国国家航空航天局/红外处理与分析中心)IRSA(红外科学档案),它存档并提供来自 NASA 红外任务的数据集。如图 1 所示,它的科学馆藏正经历着异常增长的时期,因为它正在承担管理斯皮策空间望远镜和 WISE(广域红外巡天探测器)任务发布的数据集的责任。

仅这两个数据集的容量就超过了已存档的 35 个以上任务和项目的总容量。如图 2 所示,数据的可用性以及基于程序的查询的快速增长,推动了档案的使用量增加,这体现在下载数据量和查询的年度增长上。随着新数据集通过档案发布,预计使用量将加速增长,但查询的响应时间已经受到影响,主要是因为对大量数据的请求增长。

性能的下降不能简单地像商业企业中常见的那样,通过随着使用量的增加而增加基础设施来纠正,因为天文学档案通常在几年内固定的有限预算下运行。如果不进行干预,目前天文学中使用的数据访问和计算模型(即从档案下载数据并在本地机器上分析)将迅速崩溃。正如刚刚描述的那样,数据集的规模将改变档案的设计和操作,使其不仅可以供用户访问数据,还可以支持使用最终用户软件对这些数据进行 原位 处理:网络带宽限制阻止了如此规模的数据传输,而且用户的桌面无论如何通常都缺乏处理 PB 级数据的能力。


此外,鉴于最大的科学回报将涉及来自多个档案库的数据联合,通常跨越广泛的波长范围,并且在某些情况下将涉及与大型复杂模拟的对抗,因此数据发现、访问和处理很可能分布在多个档案库中。管理 PB 级数据集对档案库和社区的影响被 2010 年天文学和天体物理学十年调查报告5 确认为一个重要的基础设施问题,该报告由国家科学院委托,旨在为未来十年推荐天文学领域的国家优先事项。

图 3 说明了档案馆藏增长的影响。随着馆藏的增长,对数据的需求、对更复杂类型的查询的需求以及对新支持领域的需求(例如,分析大量新数据集以了解天文物体随时间的变化方式,这在 2010 年十年调查中被描述为“天文学的最后前沿”)也随之增长。因此,馆藏的增长推高了存储成本以及计算和数据库成本,而档案库必须承担所有这些成本。鉴于档案库在可预见的未来很可能在捉襟见肘的预算下运行,本文的其余部分将着眼于管理数据海啸的策略和技术。

如何阻止海啸吞噬我们

在今年早些时候(2011 年 5 月,西弗吉尼亚州绿岸14)举办的数据密集型天文学创新研讨会上,与会者认识到,管理和提供大规模数据集的问题将需要社区的努力以及与国家网络基础设施计划的合作。解决方案将需要严格调查新兴技术和发现和提供数据的创新方法,尤其是在档案库可能继续在有限预算下运行的情况下。档案库如何开发新的、高效的数据发现方法?例如,档案库何时应该采用 GPU(图形处理单元)或云计算等技术?管理数据时间分配、计算密集型数据访问作业和最终用户处理作业需要哪些类型的技术?

本文强调了我们认为档案库需要解决的那些问题,以便在未来十年支持其最终用户,以及那些影响最终用户与档案库交互的问题。


提供和发现数据的创新

天文学学科需要新的数据发现技术,以应对预期的数据集大小增长,并支持跨分布式档案库高效发现大型数据集。这些技术必须旨在提供跨 PB 级数据集的数据发现和访问(例如,在天空的大片区域(如银河系平面)上发现多种波长的图像),同时防止服务器负载过重。

VAO(虚拟天文台)18 是全球范围内为提供无缝国际天文数据发现服务而努力的一部分,它正在探索此类技术。它正在开发一种基于 R 树的索引方案,该方案支持快速、可扩展地访问天文源和图像数据集的大型数据库。8 (R 树是用于索引多维信息的树数据结构。它们通常用于索引数据库记录,从而加快访问速度。)

在当前的实现中,索引存储在数据库外部,存储在位于专用 Linux 集群上的内存映射文件中。与数据库表扫描相比,它可以提供高达 1,000 倍的加速,并且已在包含 20 亿条记录和 TB 级图像集的数据库上实施。它已经在斯皮策空间望远镜遗产档案库和 VAO 图像和目录发现服务中运行。将此类技术扩展到 PB 级数据是重要的下一步。

这种定制解决方案可能比将昂贵的 GIS(地理信息系统)应用于天文学更有用。这些系统必然比天文学中需要的系统更复杂,在天文学中,天球根据定义是一个完美的球体,仪器和数据集在天空中的足迹通常是简单的几何形状。


新兴技术调查

越来越多的研究人员正在参与一项协调一致且严谨的努力,以了解档案库和数据中心如何利用新技术来降低计算和财务成本。

Benjamin Barsdell 等人1 和 Christopher Fluke 等人6 研究了 GPU 在天文学中的适用性。GPU 的开发目的是加速显示设备上图像的输出,它由许多浮点处理器组成。这些作者指出,制造商承诺的 100 倍以上的加速严格适用于类似图形的应用程序;GPU 支持单精度计算,而不是天文学中经常需要的双精度计算;并且它们的性能通常受到与 GPU 之间数据传输的限制。此处引用的两项研究表明,提交给“蛮力并行化”的应用程序将以最小的开发工作量获得最佳性能;他们表明代码分析可能有助于优化,并提供了可能受益于在 GPU 上运行的天文学应用程序类型的初步列表。这些应用程序包括固定分辨率网格模拟,以及机器学习和体绘制软件包。

其他人正在研究如何利用云计算进行天文学研究。最适合商业云的应用程序是那些处理和内存密集型的应用程序,它们利用了当前收费结构下相对较低的处理成本2。然而,I/O 密集型应用程序(在天文学中通常涉及处理大量图像数据)由于数据传输和存储成本高昂,因此运行不经济。它们需要高吞吐量网络和并行文件系统才能实现最佳性能。

在当前的收费结构下,在亚马逊云上租用大容量存储空间比购买它更昂贵。这两种选择都无法解决存储成本随容量扩展而资金不随容量扩展的基本业务问题。任何商业云的使用都应在彻底的成本效益研究后进行。商业云可能最适合短期任务,例如应用程序的回归测试和处理过多的服务器负载,或一次性批量处理任务,以及支持最终用户处理。

当然,实施和管理新技术总是会产生业务成本。Shane Canon3 和其他人对云计算的业务影响进行了现实的评估。对于所有新兴技术,都需要进行此类研究。

尽管通常与云相关的高成本,但在数据中心内部使用时,商业云中使用的虚拟化技术可能被证明是有价值的。事实上,CADC(加拿大天文数据中心)正在将其整个运营迁移到一个名为 CANFAR(加拿大天文研究高级网络)的学术云,“一个用于交付、处理、存储、分析和分发超大型天文数据集的运营系统。CANFAR 的目标是支持大型加拿大天文学项目。”10 据我们所知,这是第一个迁移到云技术的天文学档案库。7 它可以被认为是未来档案库的第一个模型,因此社区应监控其性能。

SKA 拒绝使用商业云平台。相反,在成功的原型实验之后,它提出了一种基于开源 Nereus V Cloud19 计算技术的设计,选择该技术是因为它的 Java 代码库和安全功能。原型测试平台在西澳大利亚大学、科廷大学和 iVEC 使用了 200 个客户端,并在 NereusCloud 域通过管理部署了两台服务器。客户端包括 Mac Mini 和基于 Linux 的台式机。完成后,被称为“theskynet”的系统将为专业人士和公民科学家提供对 SKA 数据集的开放访问权限。11 该设计提供了一种比早期完全基于集中式 GPU 集群的设计更便宜、更环保的替代方案。


计算基础设施

天文学需要参与并与国家网络基础设施计划合作。优化任务调度和工作流程性能以及支持数据分布式处理的大部分基础设施都由科学应用程序的需求驱动。事实上,IT 社区已经采用了 Montage 图像镶嵌引擎20 来开发基础设施(例如,分布式环境中的任务调度器和工作流程优化技术)。然而,这些努力尚未正式组织起来,未来的努力可能会从中受益。


文化变革

目前还没有有效的方法将最新的 IT 知识传播给天文学界。信息分散在众多期刊和会议论文集中。为了纠正这一点,我们建议创建一个专门介绍天文学甚至整个物理科学领域信息技术的交互式在线期刊。

更重要的是,需要改变天文学领域的奖励制度,以便对计算工作给予认可。这将有助于留住该领域的高素质人才。

最后,天文学家必须与计算机科学界合作,开发科学驱动的基础设施。SciDB 数据库15 是一种为科学应用优化的 PB 级下一代数据库,是这种合作的绝佳范例。


教育变革

一种包括在数据本地服务器上处理数据的档案模型将对最终用户产生深远影响,他们通常不仅缺乏管理和维护软件的技能,而且还缺乏开发环境无关且可扩展到大型数据集的软件的技能。Zeeya Merali13 以及 Igor Chilingarian 和 Ivan Zolotukhin4 都提出了令人信服的案例,表明软件开发的自学是造成这种现象的根本原因。Chilingarian 和 Zolotukhin 特别列举了一些天文学中笨拙且低效设计的典型例子。

一种解决方案是将软件工程作为研究生教育的必修部分,并将能力展示作为毕业的正式要求之一。正如仪器仪表课程为学生准备从事设计实验以获取新数据的职业生涯一样,计算机科学的教学也为他们准备了大规模的数据挖掘和处理任务。实际上,软件已经成为一种科学仪器。

软件工程课程应包括软件需求、设计和维护(版本控制、文档、充分测试的设计基础)的原则;计算机的工作原理以及限制其性能的因素;至少一种低级语言和一种脚本语言,可移植代码的开发,并行处理技术,数据库原理,以及如何使用云计算、集群和网格等高性能平台。教授高性能计算技术尤为重要,因为需要控制服务器上的负载。这样的课程将使天文学家能够开发自己的可扩展代码,并与计算机科学家合作支持下一代应用程序。

课程设计者可以利用现有的教学方法。Software Carpentry16 是一个开源项目,它提供软件工程基础知识的在线课程,并鼓励其用户社区的贡献。Frank Loffler 等人12 描述了路易斯安那州立大学的高性能计算研究生课程,他们在课程中使用 TeraGrid 指导学生掌握高性能计算技术,然后他们可以将这些技术用于日常研究。学生们获得了在 TeraGrid 上运行模拟代码的实践经验,包括模拟黑洞、预测飓风影响以及优化地下油气生产的代码。


结论

天文学领域开始生成比当前技术可以管理、提供和处理的更多数据。本文概述了开发下一代工具和技术以应对这场数据海啸的实践,包括严格评估新技术、天文学家和计算机科学家之间的合作,以及对科学家进行高端软件工程技能培训。


参考文献

1. Barsdell, B. R., Barnes, D. G., Fluke, C. J. 2010. 分析图形处理单元及更高级别的天文学算法。MNRAS (英国皇家天文学会月刊) 408(3): 1936-1944.

2. Berriman, G. B., Deelman, E., Juve, G., Regelson, M., Plavchan, P. 2011. 云计算在天文学中的应用:成本和性能研究。接受发表于e-Science in Astronomy Conference 会议论文集 (澳大利亚布里斯班).

3. Canon, S. 2011. 揭穿科学云计算的一些常见误解。在 ScienceCloud2011: 第二届科学云计算研讨会(加利福尼亚州圣何塞)上提交的论文; http://datasys.cs.iit.edu/events/ScienceCloud2011/.

4. Chilingarian, I., Zolotukhin, I. 2010. 现代科学计算在天文学中的真正瓶颈。 天文学数据分析软件和系统 XX, ed. I. Evans et al. ASP 会议系列 442: 471.

5. 国家科学院国家研究委员会天文学和天体物理学十年调查委员会。 2010. 天文学和天体物理学的新世界,新视野.

6. Fluke, C. J., Barnes, D. G., Barsdell, B. R., Hassan, A. H. 2011. 基于 GPU 的天体物理学超级计算:早期采用者的关键决策。澳大利亚天文学会出版物 28: 15.

7. Gaudet, S., et al. 2010. CANFAR:加拿大天文研究高级网络。在 Software and Cyber Infrastructure for Astronomy, ed. N. Radziwill and A. Bridger. SPIE 7740: 1I.

8. Good, J. 2011. 私人交流。

9. Hanisch, R. J. 2011. 虚拟天文台的数据发现、访问和管理。在数据密集型天文学创新研讨会上提交的论文,西弗吉尼亚州绿岸; http://www.nrao.edu/meetings/bigdata/presentations/May5/1-Hanisch/Hanisch VAO Green Bank.ppt.

10. Hemsoth, N. 2011. 加拿大探索天文信息学的新领域。在 HPC in the Cloud; http://www.hpcinthecloud.com/hpccloud/2011-01-17/canada_explores_new_frontiers_in_astroinformatics.html.

11. Hutchinson, J. 2011. SKA 竞标着眼于 SkyNet 进行计算; http://www.cio.com.au/article/387097/exclusive_ska_bid_looks_skynet_computing/.

12. Loffler, F., Allen, G., Benger, W., Hutanu, A., Jha, S., Schnetter, E. 2011. 使用 TeraGrid 教授科学计算。在 TeraGrid '11: 极限数字发现会议(犹他州盐湖城; 7月18-21日)上提交的论文; https://www.teragrid.org/web/tg11/home.

13. Merali, Z. 2010. 为什么科学编程无法计算。 自然 467: 775-777.

14. 国家射电天文台。 2011. 数据密集型天文学创新研讨会,西弗吉尼亚州绿岸 (5月3-5日); http://www.nrao.edu/meetings/bigdata/index.shtml.

15. SciDB 开源数据管理和分析软件系统。 2011; http://scidb.org.

16. Software Carpentry; http://software-carpentry.org/.

17. 空间望远镜科学研究所。 2011. 哈勃太空望远镜出版物统计 1991-2010; http://archive.stsci.edu/hst/bibliography/pubstat.html.

18. 虚拟天文台; http://us-vao.org.

19. Nereus 概述。 http://www-nereus.physics.ox.ac.uk/about_overview.html

20. Berriman, G. Bruce, Good, John, Deelman, Ewa, and Alexov, Anastasia. 红外处理与分析中心软件可持续发展的十年。 2011 Phil. Trans. R. Soc. A 2011 369, 3384-3397

喜欢它,讨厌它?请告诉我们

[email protected]


G. Bruce Berriman 是 IPAC(红外处理与分析中心)的高级科学家。他是虚拟天文台的项目经理和 W. M. 凯克天文台档案库的项目经理,曾任 NASA/IPAC 红外科学档案库的经理。他获得了加州理工学院的天文学博士学位,并在激变变星、偏振测量和褐矮星方面进行了研究。他曾在戈达德太空飞行中心支持宇宙背景探测器任务。他积极参与研究新兴技术在管理、提供和处理海量天文数据集方面的适用性。

Steven L. Groom 是 IPAC 的系统工程师,也是 NASA/IPAC 红外科学档案库的经理。他拥有加州大学河滨分校的计算机科学硕士学位,并在空间科学以及商业应用领域从事过大容量存储、并行处理和数据存档工作。


© 2011 1542-7730/11/1000 $10.00

acmqueue

最初发表于 Queue 第 9 卷,第 10 期 —
数字图书馆 中评论本文





更多相关文章

Qian Li, Peter Kraft - 事务和无服务器天生一对
数据库支持的应用程序是无服务器计算领域令人兴奋的新前沿。通过紧密集成应用程序执行和数据管理,事务性无服务器平台实现了现有无服务器平台或基于服务器的部署都不具备的许多新功能。


Pat Helland - 任何其他名称的身份
新兴的系统和协议都在收紧和放松我们对身份的概念,这很好!它们使完成工作变得更容易。REST、IoT、大数据和机器学习都围绕着有意保持灵活,有时甚至模糊的身份概念。身份的概念是我们分布式系统的基本机制的基础,包括可互换性、幂等性和不变性。


Raymond Blum, Betsy Beyer - 实现数字永恒
当今的信息时代正在为世界所依赖的数据创造新的用途和新的管理方式。世界正在远离熟悉的物理文物,转向更接近信息本质的新型表示方式。我们需要流程来确保知识的完整性和可访问性,以保证历史将被了解且真实。


Graham Cormode - 数据草图
您是否曾经感到被源源不断的信息流淹没?似乎新的电子邮件和短信的连番轰炸需要持续关注,还有电话要接听、文章要阅读、门要敲响。将这些碎片拼凑在一起以跟踪重要事项可能是一个真正的挑战。为了应对这一挑战,流数据处理模型越来越受欢迎。其目的不再是捕获、存储和索引每一分钟的事件,而是快速处理每个观测结果,以便创建当前状态的摘要。





© 保留所有权利。

© . All rights reserved.