AI资讯新闻榜单内容搜索-泛化

ACM MM 2025 | EventVAD：7B参数免训练，视频异常检测新SOTA

现有视频异常检测（Video Anomaly Detection, VAD）方法中，有监督方法依赖大量领域内训练数据，对未见过的异常场景泛化能力薄弱；而无需训练的方法虽借助大语言模型（LLMs）的世界知识实现检测，但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

来自主题: AI技术研报

8146 点击 2025-07-21 10:28

开放世界任务成功率82%！美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变？

来自主题: AI技术研报

9480 点击 2025-07-15 15:27

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

近年来，视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型因其出色的多模态理解与泛化能力，已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展，但在实际部署中，尤其是在高频率和精细操作等任务中，VLA 模型仍受到推理速度瓶颈的严重制约。

来自主题: AI技术研报

7850 点击 2025-07-14 11:12

ICML 2025 Oral！北大和腾讯优图破解AI生成图像检测泛化难题：正交子空间分解

随着 OpenAI 推出 GPT-4o 的图像生成功能，AI 生图能力被拉上了一个新的高度，但你有没有想过，这光鲜亮丽的背后也隐藏着严峻的安全挑战：如何区分生成图像和真实图像？

来自主题: AI技术研报

7783 点击 2025-07-13 11:30

用MoE打造DNA基础模型更强范式！人大实现seq2func全新突破

中国人民大学高瓴人工智能学院的研究团队提出通过创新模型架构来提升性能，其SPACE模型引入新架构，提升了DNA基础模型的性能与泛化能力，在多项测试中表现优异。

来自主题: AI资讯

10456 点击 2025-07-11 16:59

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

10363 点击 2025-07-11 10:09

两张图就能重构3D空间？清华&NTU利用生成模型解锁空间智能新范式

最少只用2张图，AI就能像人类一样理解3D空间了。ICCV 2025最新中稿的LangScene-X：以全新的生成式框架，仅用稀疏视图（最少只用2张图像）就能构建可泛化的3D语言嵌入场景，对比传统方法如NeRF，通常需要20个视角。

来自主题: AI技术研报

8482 点击 2025-07-09 11:08

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

9422 点击 2025-07-04 09:44

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

来自主题: AI技术研报

8252 点击 2025-07-02 15:35

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

7957 点击 2025-06-30 10:24