云南天文台为天体目标分类提出新型多模态神经网络
近日,国际天文学期刊《天体物理学报增刊》(The Astrophysical Journal Supplement Series)在线发表了题为“Morpho-photometric Classification of KiDS DR5 Sources Based on Neural Networks: A Comprehensive Star–Quasar–Galaxy Catalog”的研究论文,报道了中国科学院云南天文台在应用神经网络进行大规模天体分类方面取得的成果。该论文由中国科学院云南天文台封海成博士担任第一作者,封海成博士、郑州大学李瑞博士以及意大利那不勒斯费德里科二世大学的 Nicola R. Napolitano 教授共同担任通讯作者。
在现代天文研究中,准确识别天体的类型是理解宇宙结构、星系演化以及暗物质分布等关键科学问题的基础。由于不同类型天体的辐射机制存在显著差异(如图1),天文学家通常依赖光谱观测进行分类。然而,光谱获取需耗费大量观测资源,难以在大规模巡天中实现全面覆盖,导致目前绝大多数天体仍缺乏光谱数据。这一现实长期制约了对宇宙中海量天体的系统性研究。相比之下,图像观测能够在较短时间内完整覆盖观测视场,并探测到比光谱观测更暗的天体目标。同时,测光数据也可以构建多波段能谱(SED),用于揭示天体的辐射机制,并且可以提供天体的形态信息,为分类提供额外维度的信息(如图1)。
然而,仅依赖图像形态或SED特征进行分类会存在一定的简并性。例如,高红移类星体与恒星在图像中都表现为点源,不易区分;而在颜色空间中,不同类型天体也可能出现重叠,导致分类错误。针对这一挑战,研究团队提出了一种多模态神经网络模型,创新性地融合了天体的形态特征与SED信息,实现对恒星、类星体和星系等天体的高精度自动识别(如图2)。该方法已成功应用于欧洲南方天文台千平方度巡天项目(KiDS)第五次数据发布的1350平方度天区,完成了对超过2700万个r波段亮于23等天体的分类。
本研究对于未来包括中国空间站巡天望远镜在内的大规模多波段巡天项目具有重要的参考价值。随着这些项目的陆续开展,预计将产生数十亿个天体观测数据,传统分类方法将面临效率与准确性的双重挑战。而基于深度学习的多模态方法,将为快速、自动化、高精度的天体分类提供强有力的技术支撑。
研究团队计划在未来进一步扩展模型的适应性,并将其应用于更大规模的巡天数据处理任务中,持续推动天文数据处理由“量”向“智”的转变,为构建高质量天文数据库与揭示宇宙演化规律提供坚实基础。
该工作得到国家重点研发计划、国家自然科学基金、中国载人航天工程、云南省科技计划的资助。
图1:不同类型天体在SED、光谱特征和空间形态上的差异。图中自上而下依次展示了星系、类星体和恒星的示例。光谱数据来自 SDSS,SED 与图像数据来自 KiDS 。
图2:基于20000个天体样本得到的分类结果混淆矩阵。
附件下载: