AI资讯新闻榜单内容搜索-模型框架

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报

7585 点击 2026-05-16 10:50

「视频世界模型」新突破：AI连续生成5分钟，画面也不崩

围绕这一挑战，上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了 LongVie 2—— 一个能够生成长达 5 分钟高保真、可控视频的世界模型框架。

来自主题: AI技术研报

9006 点击 2026-01-01 10:11

GPT-6要「活」了？MIT新作曝光，AI「自进化」不远了

麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」，让模型从「被动学习者」变为「主动进化者」。

来自主题: AI技术研报

7446 点击 2025-10-19 12:39

LLaSO 横空出世：逻辑智能推出全球首个完全开源语音大模型框架，定义 LSLM 研究新基准

北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。

来自主题: AI技术研报

8310 点击 2025-09-15 08:39

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性能与计算效率。

来自主题: AI技术研报

9518 点击 2025-07-23 10:15

Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

这篇报告第一次把对人心智状态的推断，放到和物理世界模型（physical world model）同等重要的位置上，并将其概念化为心智世界模型（mental world model）。相比于传统世界模型（如LeCun的JEPA）仅关注物理规律（物体运动、机械因果），心智世界模型则首次将心理规律（意图、情感、社会关系）纳入世界模型框架，实现“双轨建模”。

来自主题: AI资讯

8183 点击 2025-07-11 12:25