
突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知
突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知对于AI视觉多模态大模型只关注显著信息这一根本性缺陷,哈工大GiVE实现突破!
对于AI视觉多模态大模型只关注显著信息这一根本性缺陷,哈工大GiVE实现突破!
据知情人士透露,过去一年中,Meta Platforms 曾请求微软、亚马逊等公司协助承担其旗舰大语言模型 Llama 的训练成本。该想法反映出对 AI 开发成本激增日益加剧的担忧,企业对资助开源软件犹豫不决。
视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。
视频理解的CoT推理能力,怎么评?
AI趋势正在“中场休息”,在此之前训练>评估,在此之后评估>训练。
让推理模型不要思考,得到的结果反而更准确?
最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。
Transformer架构主导着生成式AI浪潮的当下,但它并非十全十美,也并非没有改写者。
多智能体系统分布式共识优化的一系列研究来了!
这是一份142页的研究论文,本文深入解析了大型推理模型DeepSeek-R1如何通过"思考"解决问题。研究揭示了模型思维的结构化过程,以及每个问题都存在甜蜜点"最佳推理区间"的惊人发现。这标志着"思维学"这一新兴领域的诞生,为我们理解和优化AI推理能力提供了宝贵框架。