AI资讯新闻榜单内容搜索-sota

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

8655 点击 2026-03-30 15:02

一夜之间，AI终获「永久记忆」！最难考试99%刷爆SOTA，全网直呼疯狂

AI终于有了「永久记忆」！今天，超级记忆系统ASMR重磅登场，在业界公认最难AI记忆考试中，刷爆SOTA拿下99%成绩。全网直呼太疯狂。

来自主题: AI技术研报

7763 点击 2026-03-24 10:46

结构化扩展拿下Agent工具检索新SOTA，精准找到API｜ICLR'26

在大模型时代，Tool-Use已经成为智能体能力的核心组成部分。

来自主题: AI技术研报

7875 点击 2026-03-19 15:17

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

打破多模态视觉+语言拼接套路！

来自主题: AI技术研报

6927 点击 2026-03-19 10:22

500行极简开源框架，硬刚GPT/Gemini视觉极限！

多模态模型代码写得像老司机，却在数手指、量柱子时频频翻车？UniPat AI用五百行代码打造的SWE-Vision，让模型「掏出Python尺子」自我验证，一举拿下五大视觉相关基准SOTA。

来自主题: AI资讯

8140 点击 2026-03-16 15:08

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

多模态大模型在代码能力上进步惊人，但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision，让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报

9598 点击 2026-03-16 14:25

谷歌AGI底座降临！首个原生全模态嵌入模型上线，已实现全模态SOTA

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2！它将文本、图、音视频及 PDF 无损融于统一向量空间，实现跨越五大模态的直接检索。这极大降低了架构成本，赋予了 AI 真正连贯的「记忆」，是重塑 AI 基建的里程碑。

来自主题: AI资讯

9372 点击 2026-03-12 10:21

国产物理AI黑马杀出！超越GPT与斯坦福Biomni，狂揽生物制造SOTA

生物研发进步提速长期受制于海量人工试错。恩和首发全球生物制造物理 AI 平台 SAION，打破 AI 仅限虚拟辅助的痛点。最大惊喜是它「长出了手脚」，能自主设计并直接调度设备执行真实实验，实现闭环进化！其生物科研表现全面超越 GPT 与斯坦福 Biomni，实现 SOTA。AI 科学家终于下场干活了！

来自主题: AI资讯

7608 点击 2026-03-11 16:29

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

7670 点击 2026-03-09 14:29

弯道超车？国产具身，千小时人类数据激发智能涌现

导读：近日，位于中关村的深度机智全球首次使用全新范式——人类学习，在多个国际 Benchmark 上取得 SOTA，史无前例地使用全新架构（仅使用人类第一视角数据、零真机数据）击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点，并在两会开幕首日被央视报道。

来自主题: AI技术研报

8800 点击 2026-03-05 14:29