国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩
8863点击    2026-05-29 09:39

随着全球遥感卫星持续运行,地球观测数据正在快速增长。多源、多时相、多光谱遥感影像为国土监测、生态评估、灾害预警、气候变化研究等任务提供了重要数据基础,但也带来了显著的存储、传输和计算压力。对于长期连续观测形成的全球遥感影像档案,传统压缩方法主要面向像素级冗余消除,难以充分利用地表目标在地理位置、时间变化和光谱响应上的长期规律。


近日,来自清华大学、中山大学、新加坡国立大学、国家超级计算深圳中心等单位的研究团队提出面向全球地球观测数据的生成式压缩框架 D2AR,并在灵晟超级计算机上完成 Exascale 级训练。


国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩


  • 论文:《Transforming the Use of Earth Observation Data: Exascale Training of a Generative Compression Model with Historical Priors for up to 10,000x Data Reduction
  • 论文地址:https://arxiv.org/abs/2605.08633


用历史先验重构极端压缩数据


D2AR 的核心思路是将地球观测数据压缩从传统的 “单张图像冗余消除” 推进到 “历史先验建模与生成式重建”。与普通视觉图像不同,遥感数据是在多年尺度上对同一个地球系统的持续观测。地理位置、季节周期、地表覆盖、城市结构和多光谱响应之间存在长期规律,这些规律可以被大规模生成式模型学习,并用于极低码率条件下的数据恢复。


在框架设计上,D2AR 采用 Dual-Decoupled Asymmetric Compression and Reconstruction 思路,将前端压缩与后端重建解耦。前端只保留极少量关键表征,将多源遥感数据压缩为中间比特流,并映射为控制 token;后端则将控制 token 与地理位置、观测时间等条件信息注入生成式重建模型,在统一的多光谱潜空间中恢复观测数据。


这一设计的关键在于,压缩器不再承担完整重建任务,而是只负责提取极低码率下的控制信息。真正的重建能力来自后端生成式模型对全球历史遥感数据的学习。D2AR 基于 EQ-VAE 构建统一潜空间,并结合 Flow Matching 逐步恢复遥感影像,使模型能够利用空间、时间和光谱维度上的历史规律,提升极端压缩条件下的重建质量和下游可用性。


国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

面向地球观测的历史先验生成式压缩框架概览。(a)算法设计:将全球历史观测档案压缩为具有地理与时间条件约束的生成式先验。(b)重建流程:面向下游应用,从压缩表示中按需恢复观测数据。(c)系统设计:基于灵晟 Armv9 CPU 超算实现生成式模型的超大规模训练。


面向层级内存与 NUMA 架构的 CPU 超算训练优化


为了训练这一生成式重建模型,研究团队在灵晟超级计算机上构建了面向大规模遥感生成式模型训练的软件系统。灵晟是中国国产 E 级超级计算机系统,近期在国家超级计算深圳中心国产算力应用对接会暨全球样板点发布会上亮相,其 FP64 精度持续浮点运算性能超过 2EFlops。研究团队围绕该国产 Armv9 CPU 架构的计算单元、矩阵扩展、层次化内存和高速互连特点,对并行策略、算子内核、通信后端和运行时调度进行了协同优化,支撑模型在 CPU 超算上高效稳定训练。


在系统优化方面,团队针对大模型训练中的计算、通信和内存瓶颈,设计了层次化并行策略与内存放置机制,并对关键算子进行面向国产 CPU 矩阵扩展的优化。同时,通过通信与计算重叠、运行时调度优化和分布式训练软件栈适配,降低了大规模训练中的同步等待和数据搬移开销。单节点实验表明,基于 Armv9 LX2 和 SME 的训练效率已经达到与单张 NVIDIA A100 GPU 相当的水平,并显著优于支持 AMX 的 Intel Xeon 8558P 平台,验证了国产 CPU 架构在大模型训练中的性能潜力。


国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

Intel Xeon 8558P(支持 AMX)、NVIDIA A100(支持 Tensor Core)和 LX2(支持 SME)平台上单层运算各模块的前向和反向延迟。


更重要的是,这套优化能够扩展到全机规模。在 20,480 个节点的大规模弱扩展实验中,D2AR-rec-6B 实现了 BFloat16 精度下 1.54 EFLOP/s 端到端持续性能和超过 2.16 EFLOP/s 的训练峰值性能 [1],展现出良好的弱扩展能力。


对于历史先验生成式压缩而言,这种扩展能力不仅意味着训练速度提升,也意味着模型能够纳入更大范围、更长时间跨度的全球历史观测数据,从而学习更完整的地球观测先验。


国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

系统在三种模型规模下的弱扩展性能。


从极端压缩走向任务自适应数据服务


从应用角度看,D2AR 并不是简单减少遥感影像存储体积,而是尝试建立一种新的地球观测数据使用方式:将全球历史遥感档案转化为可调用的生成式先验,在极低码率下按需恢复对科学分析有价值的信息。实验结果表明,D2AR 能够在高达 10000× 的极端压缩场景下提升重建质量,并在感知质量、结构一致性和 NDVI 等遥感相关指标上取得改进。进一步的下游土地覆盖分类实验也显示,重建数据仍能保留较强的任务效用,说明该方法不仅压缩倍率高,也能够支撑后续分析任务。


国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

不同压缩比下的可视化对比及对应光谱曲线。


这项工作也验证了国产超算在 AI for Science 场景中的系统支撑能力。通过算法、模型和系统软件栈的协同设计,国产 CPU 超算不仅能够支撑传统科学计算任务,也能够承载大规模生成式 AI 训练。对于遥感应用而言,这意味着数据价值不再只取决于 “采得更多、存得更全”,也取决于能否更高效地存储、传输和使用。D2AR 为遥感基础模型、科学数据智能压缩和国产高性能计算生态建设提供了新的实践路径。


[1] 峰值训练性能按完整前向与反向传播的模型计算量及其在全机训练中的实测执行时间计算,包含运行时调度和 kernel launch 等实际开销;端到端持续性能则进一步计入数据加载、通信同步和优化器更新等完整训练流程开销。


文章来自于"机器之心",作者 "清华大学张金潇、中山大学董润敏、清华大学深圳国际研究生院吴羲勇"。

AITNT-国内领先的一站式人工智能新闻资讯网站