AI资讯新闻榜单内容搜索-模型训练

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

如今手机拍照已成日常，后期修图是提升照片质感的关键。

来自主题: AI技术研报

9854 点击 2026-06-15 09:21

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时，Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文，并支撑跨时间的推理能力。

来自主题: AI技术研报

8999 点击 2026-06-15 09:20

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

来自主题: AI技术研报

6301 点击 2026-06-15 09:19

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」

多模态大模型越来越会读图中文字，但最新研究显示，「读得出来」并不等于「防得住」。西湖大学 AGI Lab 的研究团队发现，当有害文本被渲染成低清、模糊或带噪图片后，模型在一个特定清晰度区间内反而更容易被越狱。

来自主题: AI技术研报

7318 点击 2026-06-15 09:19

看不清就乱答？多模态大模型的这个毛病终于有解了 | ICML 2026

雨雪、雾霾、镜头噪点、压缩失真、夜间弱光……

来自主题: AI技术研报

7615 点击 2026-06-15 09:19

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

随着AI Coding、Agent、Deep Research 等应用快速普及，模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。

来自主题: AI技术研报

9854 点击 2026-06-15 09:18

CVPR 2026 | GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧，扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像，却无法回答场景中有哪些目标、目标位于何处，以及不同视角下的空间结构如何变化，那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报

9729 点击 2026-06-15 09:18

PEFT方法评测不能只看下游分：通用能力损失也该被量化

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

来自主题: AI技术研报

10218 点击 2026-06-14 10:38

争论几十年的水之谜，被AI一举破解！港城大&中石大成果登Nature Physics

香港城市大学曾晓成教授与中国石油大学（华东）钟杰教授团队给出了终结级的分子水平证据，成果发表于《Nature Physics》。他们首创了一套无监督深度学习框架，不给AI任何预设条件，直接把海量水系统中7400多万个水分子结构扔给模型，让AI自己去悟。结果不仅直接证明常压水里确实存在两种「暗」组份，还把A/B水分子相互变身的「立交桥」路线图给完整画了出来。

来自主题: AI技术研报

10075 点击 2026-06-13 10:42

CVPR 2026 | 视觉脑机迈向双向交互！神经流模型 NeuroFlow 打通视觉与神经的双向通道

来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队，提出首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow，相关成果入选 CVPR 2026。它首次将视觉编码（写脑）与解码（读脑）整合到同一可逆流结构中，打通视觉感知与神经活动之间的双向通路，为理解人类视觉认知机制、构建下一代通用视觉假体与双向脑机接口提供了全新范式。

来自主题: AI技术研报

8153 点击 2026-06-13 10:12