您选择的条件: 安涛
  • SKA大数据的科学应用和挑战

    分类: 其他 >> 综合 提交时间: 2023-03-19 合作期刊: 《中国科学院院刊》

    摘要: 即将开建的平方公里阵列(SKA)射电望远镜是最大的天文观测装置,有望在宇宙起源、生命起源、宇宙磁场起源、引力本质、地外文明等自然科学重大前沿问题上取得革命性的突破。SKA的超级灵敏度、超大视场、超快巡天速度和超高时间、空间、频率分辨率等技术特点确保了SKA在观测能力上的领先地位,由此也产生了海量观测数据。SKA的数据运输、存储、读写、运算、管理、归档、发布对信息和计算机领域的前沿技术均提出了严峻的考验。中国SKA科学团队将协同信息产业界一道应对SKA大数据的挑战,不仅推动产生重大原创性科学发现,其技术成果也将应用于国民经济建设。

  • 中国SKA区域中心原型系统 -- 软件平台

    分类: 天文学 >> 天体物理学 提交时间: 2023-01-06

    摘要: 平方公里阵列(Square Kilometre Array, SKA)射电望远镜将在多个科学方向取得革命性的突破, 而SKA软件系统是影响科学产品的关键因素之一. SKA区域中心是天文学家进行SKA数据分析、科学研究和学术交流的平台. 处理SKA科学数据的软件环境需要具备通用性、灵活性和高适应性. 中国科学家已经建成了中国SKA区域中心原型机, 部署了被大型超级计算机广泛使用的作业调度系统, 并安装了能够处理当前主流射电望远镜观测数据的天文软件, 还部署了多个科学数据处理管线, 以方便不同科学方向的观测数据的自动化并行处理. 本文介绍了中国SKA区域中心原型机的软件平台和处理SKA先导望远镜数据的管线, 包括低频连续谱成像管线、谱线成像管线以及甚长基线干涉测量数据处理管线. 国内外用户已经基于该平台成功开展了SKA相关科学研究. 该平台的建设和运行为未来全面建设中国SKA区域中心提供了宝贵的实践经验.

  • SKA低频成像管线并行优化

    分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2022-06-28

    摘要: 平方公里阵列(Square Kilometre Array, SKA)射电望远镜的数据处理是通过管线方式进行的,管 线的执行效率是SKA区域中心考虑的重要因素.连续谱成像观测是SKA的主要观测模式之一,也是许 多科学工作的基础.本文以SKA低频先导设备(Murchison Widefield Array, MWA)的成像管线为例,在 中国SKA区域中心原型机(China SKA Regional Centre prototype, CSRC-P)上进行并行处理管线优化.以往的优化方案都集中在少数性能热点,缺乏对整体管线的系统优化,导致整体加速比相对较低.针对这一 问题,本文提出了一种全局优化方案,针对管线使用多种编程语言、图像数据可独立处理的特点,综合使用C+ +多线程、Python多进程、Shell多任务并行等优化方法,并验证了优化结果的准确性.实验表明,优 化后的代码在CSRC-P的x86节点和ARM节点上分别获得了2.7和2.4倍加速. ARM计算节点展现出 对SKA应用良好的适应性.本文的优化策略和方法也适用于其他SKA科学应用,对SKA先导望远镜的 科学运行和未来的运行有帮助.

  • 低频射电脉冲星搜索的性能优化方法

    分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2022-06-28

    摘要: 随着平方公里阵列射电望远镜(SKA)等大科学装置的建设和运行,以及大数据和高性能计算创 新平台的提出,天文学与高性能计算之间的联系日趋紧密.天文学计算,特别是作为SKA的主要科学方 向之一的脉冲星搜索,具有数据量大、计算量多的特点.本文介绍了一种基于OpenMP多线程和多进程 技术来加速脉冲星搜索流程的方案,提出了一种解决负载不平衡问题的方法,并成功的将优化流程安装于 中国SKA区域中心原型机的x86和ARM计算节点.通过默奇森大视场阵列望远镜(MWA)的脉冲星观 测数据搜寻测试,与原始单线程方法相比,流程分别获得10.412.2和24.527.6倍的加速比.其中ARM平台比x86平台的计算快1.11.3倍,显示出其在SKA数据处理方面的巨大潜力.在中国SKA区域中心 原型机上部署的脉冲星优化搜索流程,近期将重点应用于MWA南天快速两米巡天(SMART)项目的低 频脉冲星搜寻,以满足包括引力波探测计时阵在内的多种科学需要。

  • 面向SKA1时代的科学数据流及阵列模拟分析

    分类: 天文学 >> 天文学 提交时间: 2022-06-28

    摘要: 作为下一代射电望远镜,平方公里阵列望远镜(SKA)经过多年的筹备,第一阶段(SKA1) 已经在2021年7月开工建设,SKA1正式运行后预计每年将产生750PB的科学归档数据,这些数据将存储在世界各地的SKA区域中心供科研工作者使用。本文将SKA观测台站、中央信号处理器、科学数据处理及区域中心等各个阶段的模型进行量化分析,以SKA1的高优先级科学观测为主要依据,得出每个阶段的数据流评估情况,以及对科学数据处理算力的需求。以当前SKA1-Low和 SKA1-Mid的阵列为例,总结了包括分辨率、灵敏度、UV覆盖等影响干涉阵列布局的关键因素;最后使用OSKAR进行干涉阵列的数据模拟,通过对SKA1-Mid的模拟得出系统的可扩展性和稳定性,通过对SKA1-Low在CSRC-P上的模拟,可以看出中国SKA区域中心原型机设计经过了充分的论证和优化,并得出了详细的算力需求以及数据量的详细信息。SKA对数据处理、计算、存储等的需求,将需要电子、通信、信息、计算机等技术和交叉学科的联合推动。

  • 中国SKA区域中心跨洲际高速数据传输进展及展望

    分类: 天文学 >> 天文学 提交时间: 2022-06-28

    摘要: 平方公里阵列望远镜(SKA)作为最大的射电望远镜,其观测产生的数据将首先由澳大利亚和南非两个台址国传输到百公里左右的科学数据处理中心,然后通过高速网络分发到上万公里距离的各个SKA区域中心。具有SKA 10%规模的SKA1阶段,每年预计有750PB的数据需要通过至少100Gbps的网络分发到各个SKA区域中心(SRC),如此高的网络带宽和数据规模对数据的传输分发带来极大挑战。本文通过对TCP/UDP/HTTP等不同网络协议的分析,并使用当前射电天文领域不同的软件进行测试和研究,得出了目前在10Gbps网络的基础设施下最佳的传输方案参数,文中讨论了影响高速传输的因素,给出了相应的性能优化的策略,在SKA1真正的观测数据产生之前,将为中国SKA区域中心的网络建设和布局提供技术基础。描述的技术细节和方法可供相关科学应用参考和使用。最后讨论并展望了未来SKA网络需求的挑战。

  • 一个面向原始数据搜寻的快速射电暴数据集

    分类: 天文学 >> 天文仪器与技术 提交时间: 2022-06-28

    摘要: 快速射电暴是目前国际天文学新兴前沿热点,随着海量观测数据带来的处理和分析的挑战,亟需开展快速射电暴信号智能搜寻和甄别的研究。为了加速快速射电暴搜寻研究,我们开发了一套基于机器学习的快速射电暴数据集,它可以训练机器学习算法以搜寻原始数据中的快速射电暴。目前数据集有8020个快速射电暴仿真图像、4010个非快速射电暴和4010个射频干扰仿真图像,这些图像是根据开放的快速射电暴观测结果构建的,并可根据需要扩展数量。本研究旨在为最先进的人工智能算法提供开源数据集,以测试和比较快速射电暴识别算法。该数据集为卷积神经网络和经典机器学习算法提供图像和numpy格式的文件。数据集可以实现快速射电暴和非快速射电暴分类,或快速射电暴、射频干扰和背景噪声分类。在本例中,我们使用预先训练过的31种经典卷积神经网络(CNN)。在快速射电暴/非快速射电暴分类中,在第一个历元训练中达到90-92%的准确率,在真实数据测试中达到99.8%的最大准确率。