AI资讯新闻榜单内容搜索-STIV

让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了

近日，清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练（Contrastive Latent Action Pretraining, CLAP）框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐，也就是说，机器人能够直接从视频中学习技能！

来自主题: AI技术研报

7836 点击 2026-01-19 15:13

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

来自主题: AI技术研报

6324 点击 2024-12-12 21:57

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用，代码已开源。

来自主题: AI技术研报

7904 点击 2024-07-25 18:28

12 月 16 日-17 日，由极客公园主办、751 联合主办的「极客公园创新大会 2024」（GeekPark Innovation Festival，以下简称「IF」），在北京 751 园区·传导空间成功举办。这也是 IF 大会时隔两年后再次回到北京举办。

来自主题: AI资讯

10180 点击 2023-12-19 13:11