近年来包括黑洞照片在内的众多重大突破都离不开对已有数据的挖掘,AI技术又将如何帮助科学家们挖掘出新发现?
第一财经15日从中国科学院上海天文台(下称“上海天文台”)获悉,研究员葛健带领的国际团队,运用人工智能的深度学习方法,对国际斯隆巡天三期释放的类星体光谱数据进行了微弱信号搜寻和数据分析,发现了稀少的107例宇宙早期星系内的冷气体云块成分的关键探针中性碳吸收体。该研究为探索星系如何形成和演化提供了新的研究方式,展现了人工智能在天文海量数据中探寻微弱信号的应用前景。5月15日,相关研究成果发表在《皇家天文学会月报》(MNRAS)上。
艺术想象图,来源:上海天文台
“这次的重大发现是人工智能在天文大数据应用的一个里程碑,受训的深度神经网络已经远超受训多年的天文学家,可以在海量数据中快速找到极其稀少和微弱信号。”葛健对第一财经表示。
研究冷气体和尘埃对剖析星系形成和演化至关重要,为天文学家探讨星系从“最初组装”到恒星形成时期的剧烈变化,再到演化后期的整个星系生命周期提供了关键手段。
葛健解释,本次研究获得的样本数是此前获得的最大样本数的近两倍之多,并探测到更多比以前更微弱的信号。天文界的数据特别多,很多信号已经被都找到了,使用传统的搜寻方法耗费时间,同时搜寻到的假信号较多,易遗漏一些微弱信号,所以要有新的突破,更需要“快准狠”。
这套2017年就开始自研的系统,如何帮助科学家在浩瀚数据中挖掘新信号?
“我们团队生成和真实信号特征完全一样的仿真数据去做深度神经网络训练,让机器学会去找有这类特征的探针。”他告诉第一财经,他们采用人工智能的深度学习方法,设计神经网络,生成基于实际观测的中性碳吸收线特征的大量仿真样本去训练深度学习神经网络,并使用这些被“训练好”的深度学习神经网络在斯隆巡天三期释放的数据中搜寻中性碳吸收体。有了这个系统,也大大节省了工作时间,“比如以前没这套系统的话人工需要找几个月。有了这个自研系统,几十秒就跑完了。”
葛健认为,要想使用人工智能在海量的天文数据中“挖”到新发现,就需要发展创新的人工智能算法,使之能够快速地、准确地、完备地探寻到这些很难在传统方式下被找到的稀少而微弱的信号。
他打了个比方,小时候他有时在家附近的兵工厂释放的大量煤渣中找“二煤”,也就是特别容易燃烧但极其稀少的半焦煤,如何更快找到更多的“二煤”?就需要发明比别人更快、更准和更完备的“耙子”。
他说,这次重大突破使用的创新手段就是这种有效的“耙子”,在其他天文学家使用传统方式都找过的斯隆数据(煤渣)中,使用这把创新的“耙子”快速、准确和完备地找到了令人激动的“二煤”—宇宙冷气体探针。”
他告诉记者,天文大数据谁都可以免费自由地使用,就如同免费的“二煤”,但只有那些拥有好工具的“小孩”才可能在大量的煤渣中快速、准确和大量地找到珍贵的“二煤”——也就是那些稀少的重要宇宙新发现。
该研究发现验证了近期詹姆斯·韦伯太空望远镜在宇宙最早的恒星中探测到类似钻石的碳尘埃的新发现,预示着部分星系的演化比预期要快得多,挑战了现有的星系形成和演化模型。区别于詹姆斯·韦伯太空望远镜通过星系发射光谱来开展研究工作,该工作通过观测类星体的吸收光谱来研究早期星系,这将为未来宇宙和星系早期演化研究提供全新的研究手段。
谷歌将在实验室外测试AI搜索模式;消息称微软Azure平台将托管马斯克的Grok AI模型;多邻国推出148门AI生成的新语言课程。
①全球首个“AI+甲骨文”创新赛事在豫启动;②上海交大推出AI三大基金和“AI十条”;③天工Ultra研发企业:即将量产人形机器人,未来价格和小轿车差不多。
腾讯云大模型知识引擎已率先接入MCP,拓展AI应用边界;阿里通义万相开源首尾帧生视频模型。
在安全领域,深信服安全大模型可24小时不间断工作,将需要多次手动操作的安全运营工作量减少了92%。
①Meta发布人工智能新模型系列Llama 4;②微软公布基于Muse AI生成的《Quake II》游戏技术演示DEMO;③广西高速公路启用AI治理拥堵。