AI资讯新闻榜单内容搜索-AI视觉

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

5809 点击 2026-01-31 12:30

BiCo是一种创新的AI视觉内容生成方法，能灵活组合图像和视频中的视觉概念，实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新，解决了现有方法在概念提取和组合上的问题，让AI真正理解并融合视觉元素。

来自主题: AI技术研报

5881 点击 2026-01-06 16:16

多模态大语言模型（MLLMs）已成为AI视觉理解的核心引擎，但其在真实世界视觉退化（模糊、噪声、遮挡等）下的性能崩溃，始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报

8316 点击 2025-12-25 09:44

2025 年还有一周结束，年底，AI 视频圈又卷起来了。

来自主题: AI技术研报

8118 点击 2025-12-22 16:02

在个性化视觉生成的实际应用中，通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果，通常需对大模型进行针对性的自适应微调，但当前以 LoRA 为代表的主流方法，仍受限于定制化数据收集与冗长的优化流程，耗时耗力，难以在真实场景中广泛应用。

来自主题: AI技术研报

6004 点击 2025-12-18 09:12

不久前，NeurIPS 2025 顺利举办，作为人工智能学术界的顶级会议之一，其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报

10015 点击 2025-12-12 09:36

大模型总是无法理解空间，就像我们难以想象四维世界。

来自主题: AI技术研报

7895 点击 2025-12-05 10:07

具身智能落地迈出关键一步，AI拥有第一人称与第三人称的“通感”了！

来自主题: AI技术研报

9413 点击 2025-10-20 12:33

智东西10月15日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本，两个尺寸均提供Instruct与Thinking版本，在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯

10512 点击 2025-10-15 17:05

2023年Meta推出SAM，随后SAM 2扩展到视频分割，性能再度突破。近日，SAM 3悄悄现身ICLR 2026盲审论文，带来全新范式——「基于概念的分割」（Segment Anything with Concepts），这预示着视觉AI正从「看见」迈向真正的「理解」。

来自主题: AI技术研报

8454 点击 2025-10-15 12:18