
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
来自主题: AI技术研报
3931 点击 2024-12-12 21:57
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。
12 月 16 日-17 日,由极客公园主办、751 联合主办的「极客公园创新大会 2024」(GeekPark Innovation Festival,以下简称「IF」),在北京 751 园区·传导空间成功举办。这也是 IF 大会时隔两年后再次回到北京举办。