
清华、华为等提出iVideoGPT:专攻交互式世界模型
清华、华为等提出iVideoGPT:专攻交互式世界模型iVideoGPT,满足世界模型高交互性需求。
iVideoGPT,满足世界模型高交互性需求。
相同性能情况下,延迟减少 46%,参数减少 25%。
TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。
近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。
龙争虎斗的大模型竞技场,今天突然更新:国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一。可以看到,它的成绩几乎与GPT-4-0125-preview持平。同时,国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜,位居第15位。
大模型带来的生命科学领域突破,刚刚再传新进展。
本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人赵健、清华大学智能产业研究院(AIR)助理教授赵昊等。
微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——
“镜头围绕一大堆老式电视旋转,所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等,背景设置在纽约一家大型博物馆画廊。”
斯坦福AI小镇曾火遍了全网,25个智能体生活交友,堪称现实版的「西部世界」。