AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8386 点击    2026-03-30 15:02
ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

在具身智能领域,机器人操作的泛化能力一直是一个核心挑战。当前,视觉 - 语言 - 动作(VLA)模型主要分为两大范式:端到端模型与分层模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])严重依赖海量的 “指令 - 视觉 - 动作” 成对数据,获取成本极高,导致其在面对新任务或新场景时零样本泛化能力受限。

来自主题: AI技术研报
5910 点击    2026-03-30 15:00
Karpathy紧急叫停!别再喂数据了,曝AGI方向全错

Karpathy紧急叫停!别再喂数据了,曝AGI方向全错

Karpathy紧急叫停!别再喂数据了,曝AGI方向全错

Karpathy给一支平均年龄25岁的「叛军」站台,红杉和GV连眼都不眨就拍出1.8亿美金。这群人放话:要么把效率干得比人脑高10倍,要么看着AI把地球烧干!

来自主题: AI资讯
6139 点击    2026-03-30 09:57
Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。

来自主题: AI技术研报
7889 点击    2026-03-30 09:55
打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。

来自主题: AI技术研报
9996 点击    2026-03-30 09:29
连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

当世界模型越来越大,真正制约它走向「内部模拟器」的,未必是表征能力,而可能是动力学建模。

来自主题: AI技术研报
7361 点击    2026-03-30 09:29
CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

当你希望 AI 将 "士兵举起手臂,向后倾身,然后身体向前扑倒" 这段文字转化为一段 3D 角色动画,现有大多数方法给出的答案是:一段摇摇晃晃、语义残缺的短片段。这并非模型能力不足,问题的根源在于将运动表达为逐帧离散序列这一根本性的设计决策。

来自主题: AI技术研报
7112 点击    2026-03-30 09:28
阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

大家好,我是吴师兄。 之前有个学员面阿里的 NLP 岗,简历上写着"搭建了基于 RAG 的企业知识问答系统"。面试官翻着简历问: "你们知识库有多少文档?什么格式?" 他说:"大概 5000 份,PD

来自主题: AI技术研报
7704 点击    2026-03-29 10:50
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报
8439 点击    2026-03-28 09:50