AI资讯新闻榜单内容搜索-多模态

让GUI智能体不再「过度执行」，上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲，研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。

来自主题: AI技术研报

9603 点击 2025-07-03 11:03

超CLIP准确率11%！伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器，从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择，在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报

7284 点击 2025-07-03 11:00

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

2025年上半年，AI开源领域的竞赛异常激烈，主要围绕着几个核心方向展开：首先是效率竞赛，各路玩家不再单纯追求千亿、万亿参数的“巨无霸”模型，而是更专注于通过新架构和训练方法，用更小的参数实现更强的性能。其次，多模态已成标配，纯文本模型越来越少，新发布的旗舰模型几乎都具备了处理图像、视频等多种信息的能力。

来自主题: AI产品测评

10372 点击 2025-07-02 17:31

RAG已死，2025年RAG的重点新趋势

2023年至今，检索增强生成（RAG）经历了从备受瞩目到逐渐融入智能体生态的转变。尽管有人宣称“RAG已死”，但其在企业级应用中的重要性依然无可替代。RAG正从独立框架演变为智能体生态的关键子模块，2025年将在多模态、代理融合、行业定制化等领域迎来新的突破。

来自主题: AI技术研报

7226 点击 2025-07-02 17:01

RAG终极框架！港大开源RAG-Anything：统一多模态知识图谱

最近，由香港大学黄超教授团队发布的开源项目「一体化的多模态RAG框架」RAG-Anything，有效解决了传统RAG的技术局限，实现了「万物皆可RAG」的处理能力。

来自主题: AI资讯

7500 点击 2025-06-30 15:19

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

7101 点击 2025-06-30 10:24

中国首个海洋领域开源大模型OceanGPT(沧渊)发布！海洋精准感知技术全国重点实验室(浙江大学)牵头研发

该大模型由海洋精准感知技术全国重点实验室(浙江大学)牵头研发，具备基础的海洋专业知识问答，以及声呐图像、海洋观测图等海洋特色多模态数据的自然语言解读能力。其采用的领域知识增强“慢思考”推理机制，相较现有通用大模型能有效降低幻觉式错误。

来自主题: AI资讯

6987 点击 2025-06-29 17:03

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

扎克伯格又从奥特曼手里挖走4名顶尖AI人才，这次四位都是华人研究员。

来自主题: AI资讯

7954 点击 2025-06-29 13:54

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍，Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级，具备三大亮点：

来自主题: AI资讯

8097 点击 2025-06-28 17:57

上海AI企业冲刺港交所：9年干成中国第一AI超级应用，市值218亿

又一家A股上市公司冲刺“A+H”！6月26日，上海AI产品公司合合信息递表港交所。招股书显示，合合信息是一家原生AI（AI-native）公司，已成为全球多模态大模型文本智能技术的领先者，业务已覆盖全球超过200个国家和地区，3款C端产品拥有数亿全球用户群，是少有的同时在中国和全球拥有成规模用户量的原生AI公司。

来自主题: AI资讯

6917 点击 2025-06-28 12:52