万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」
7824点击    2026-03-21 09:28

本文的第一作者(排名第一) 唐家祺 为香港科技大学 HKUST Visual Intelligence Lab博士生,共同第一作者包括严莹莹,王乾宙,夏宇阳,耿博同和陈建民。通信作者包括陈启峰教授(香港科技大学)和魏巍教授(西北工业大学)。


当你在手机地图上查看实时路况,当天气预报准确预警台风路径,当农业部门监测到作物病虫害——这一切背后,都离不开遥感技术。然而,传统的遥感数据分析更像是「眼睛」:它能看见,却很难理解;它能执行指令,却不会主动思考。


如今,一场由 AI 智能体驱动的变革正在发生。近日,来自香港科技大学、西北工业大学、清华大学等多家高校及研究机构的学者联合发布了遥感 AI 智能体领域系统综述。全文逾万字,首次为「遥感智能体」给出了严格定义,系统梳理了其架构、应用、数据集与未来方向。


这项研究宣告:遥感正从被动感知走向主动认知,从单一工具演变为能规划、会记忆、可协作的「地理空间智能体」。


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


  • 论文标题:Intelligent Remote Sensing Agents: A Survey
  • 论文链接:https://github.com/PolyX-Research/Awesome-Remote-Sensing-Agents/paper/preprint.pdf
  • 开源资源列表:https://github.com/PolyX-Research/Awesome-Remote-Sensing-Agents


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 1:展示了近十年来遥感智能体的发展脉络,从早期的单智能体探索到 2024-2026 年多智能体系统的爆发。


四大核心贡献,搭建统一框架


这篇综述的贡献可以概括为四点:


  • 首次形式化定义遥感智能体,将其建模为感知、规划、记忆、动作、环境交互的闭环系统,为后续研究提供了数学基础。
  • 提出多粒度技术分类法,从规划策略、记忆机制、动作执行、多智能体协作四个维度系统分析现有方法。
  • 全景式梳理六大应用场景,覆盖城市治理、精准农业、生态监测、海洋监管、应急响应、地质勘探。
  • 整理开放数据集与评测基准,并指出可靠性、安全性、动态适应等关键挑战,为未来研究绘制了路线图。


什么是遥感 AI 智能体?不只是「会聊天」


与通用大语言模型不同,遥感智能体不仅要会「说」,更要会「做」。论文给出了一个严谨的数学定义,但通俗地理解:它是一个能理解用户高层目标、自主拆解任务、调用专业工具(如 GIS 软件、气象数据、在线知识库),甚至指挥卫星或无人机去获取新数据的智能系统。


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 2:展示了智能体的核心模块:感知、规划、记忆、动作,以及与环境的交互。在 wildfire 示例中,智能体通过卫星影像感知火情,结合气象数据规划预测模型,调用无人机执行侦察任务,并将结果存入记忆库供后续使用。


比如,你不再需要告诉它「用 NDVI 指数分析这片农田」,而是可以直接问:「看看我负责的区域里,哪些田块最近可能缺水了?」智能体便会自己规划:获取多光谱影像、计算植被指数、比对历史数据、排除干扰因素,最后生成带地图的报告——全程无需人工干预。


这种能力的背后,是四个核心模块的协同工作:


规划策略:从「照剧本演戏」到「即兴演出」


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 3 左:开环规划在任务开始前生成固定流程,适合静态数据;右:闭环规划根据工具输出、环境变化和任务目标实时调整计划。


  • 开环规划:适合静态任务,预先制定完整流程(如数据获取→预处理→分析→输出),效率高但缺乏应变。


  • 闭环规划:动态调整计划。例如云层遮住光学影像,智能体立刻改用雷达数据继续分析,或重新调度卫星获取新影像。


记忆机制:让智能体「越用越聪明」


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 4:展示了智能体如何通过上下文记忆和结构化状态存储维持工作流连贯性,并通过经验池和知识库实现跨任务复用。


  • 内部记忆:记录单次任务中的中间结果(如矢量图层、工具参数),保证流程连贯。


  • 外部记忆:跨任务复用经验,比如把成功处理洪水的流程存入「经验池」,下次遇到类似灾害直接调用。


动作执行:从「动嘴」到「动手」


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 5:动作执行


  • 调用外部工具如 GDAL 处理栅格、SNAP 分析雷达数据。
  • 生成代码用 Python/R 实现定制化分析,突破预定义工具限制。
  • 具身动作直接控制无人机改变航线、调整卫星拍摄角度,实现「感知-决策-行动」闭环。


多智能体协作:1+1>2 的群体智慧


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 6 左:集中式协作中,中央控制器分配任务、汇总结果;右:分布式协作中,多个智能体通过共享内存和批评协商达成共识。


面对全球尺度的监测或复杂灾害响应,单一智能体力不从心。综述区分了两种协作模式:


  • 集中式:一个「大脑」统一调度,适合需要严格一致性的流程(如生成标准地图产品)。


  • 分布式:多个智能体平等协商,通过交换证据、互相批评达成共识,适合信息碎片化的场景(如多源数据融合定位)。


六大应用场景,智能体已「上岗」


万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」


图 7:智能体在城市治理、精准农业、生态监测、海洋监管、应急响应、地质勘探中的典型应用。


  • 城市治理


AI 智能体在城市治理中实现感知、分析与行为生成的闭环。AirSpatialBot 通过空间感知 VLM 完成三维场景下的精细车辆识别与检索;ChatGeoAI 与 GeoGPT 将自然语言指令转化为 GIS 工具链,自动化空间分析与推理;LLMob 与 AgentMove 则利用个体记忆与集体模式模拟城市居民行为轨迹,LLMLight 通过语言推理优化交通信号控制,推动城市管理从被动响应向主动干预演进。


  • 精准农业


智能体将遥感分析与农业决策深度融合。GeoLLM-Squad 通过多智能体协作自动化 NDVI 等指标计算;AgriGPT 借助检索增强处理复杂农艺查询;ChatLeafDisease 基于思维链从图像直接诊断作物健康。同时,数据驱动的 ABM(如 Data-Driven ABM)学习政府与农户行为偏好,支持土地利用优化,为精准农业提供从感知到决策的完整支撑。


  • 生态监测


智能体赋能生态系统从定量评估到政策分析的全链条。REO-VLM 突破分类局限,直接回归预测地上生物量;TREE-GPT 集成林业知识库与 SAM 模型实现单木级结构提取;CLEAR 利用 LLM 检索摘要气候政策,提升决策可及性;EarthLink 与 DA4DTE 自动化气候科学研究工作流与数据发现,将卫星观测转化为可操作的生态叙事。


  • 海洋监管


智能体在海洋科学推理与自主航行控制两大方向取得突破。WaterGPT 与 OceanGPT 分别针对水文与海洋科学,集成工具调用与多智能体协作,支持数据处理、知识问答与任务决策;Autonomous Vehicle Maneuvering 与 Agyei 等人的工作将视觉-LLM 嵌入航海仿真与水面无人艇闭环控制,实现动态环境下的路径规划与可解释决策,推动海洋监管向智能化、自主化发展。


  • 应急响应


智能体在灾害监测与建模决策中展现关键价值。RescueADI 通过规划-感知-识别链支持自适应多步解释;UAV-CodeAgents 利用多智能体 ReAct 协作动态重规划无人机任务;FIRE-VLM 在数字孪生中实现火线追踪。Knowledge-Guided wildfire、ESCAPE、FLARE 与 WildfireGPT 分别通过领域知识注入、认知智能体建模、行为理论结合 RAG 等,提升火势模拟、地震疏散与应急问答的精准度与时效性。


  • 地质勘探


智能体将地质解释与勘探自动化推向新高度。PEACE 与 STA-CoT 通过领域知识注入与多智能体链式推理,实现全图信息提取与多影像地质推理;Geo-MMRAG 构建多模态地质知识库,利用检索增强缓解岩性识别歧义;MineAgent 与 GeoAgent 通过模块化框架与工具调用,自动化端到端勘探流程,并引入专用基准 MineBench,显著提升矿物勘探的智能化水平。


数据与评测:地基不牢,大厦难起


智能体的性能高度依赖数据和评测方法。综述系统整理了现有资源(详见正文):


  • 感知数据集:如 iSAID(实例分割)、Topo-boundary(道路拓扑提取)、STAR(场景图生成)等。
  • 推理数据集:如 GeoChat(多轮对话指令)、LEVIR-MCI(变化描述)、AirSpatial(三维空间问答)等。
  • 决策数据集:如 RescueADI(灾害响应流程)、AEOS-Bench(卫星调度轨迹)等。


挑战在前,未来可期


尽管前景广阔,遥感智能体仍面临重重难关:


  • 可靠性:模型幻觉可能导致误判,尤其在灾害应急中。需引入外部知识验证、不确定性量化。
  • 动态适应:云层、光照、传感器故障瞬息万变,智能体必须能实时调整计划。
  • 安全隐私:高分辨率影像可能泄露敏感目标,工具调用也可能被滥用。联邦学习、差分隐私等技术将成为保障。
  • 评测缺失:缺乏对规划、工具使用、协作能力的整体评估,新基准亟待建立。


面向未来,论文指出了五个关键方向:


  • 自进化:从过往任务中学习,不断优化知识库和流程。
  • 因果推理:不仅知道「发生了什么」,更要回答「为什么发生」,为政策制定提供依据。
  • 群体智能:多智能体协同应对气候变化、粮食安全等全球性问题。
  • 具身交互:不仅要分析数据,还要主动获取数据——指挥卫星变轨、调度无人机巡检。
  • 个性化服务:为不同用户(规划师、农民、应急人员)提供定制化洞察。


结语


这篇万字综述不仅为遥感 AI 智能体搭建了统一的理论框架,更是一份面向实践的行动指南。它预示着未来的遥感系统将不再是沉默的「眼睛」,而是能思考、会行动、可对话的「地理空间智能体」。


当 AI 智能体真正理解地球的每一寸变化,一个更智慧、更可持续的未来或许就在眼前。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

关键词: 模型训练 , AI , AI智能体 , 遥感AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI