 
国产多模态大模型狂飙,颜水成挂帅开源Vitron,破解图像/视频模型割裂问题
国产多模态大模型狂飙,颜水成挂帅开源Vitron,破解图像/视频模型割裂问题奔向通用人工智能,大模型又迈出一大步。
 
奔向通用人工智能,大模型又迈出一大步。
 
奔向通用人工智能,大模型又迈出一大步。
 
120秒超长AI视频模型来了!不但比Sora长,而且免费开源
 
去年 4月, 生成式 AI在国内热度正盛的时候,毒眸造访了几家 AI公司, 创业者们对于 AI的态度是大胆、积极和乐观的。
 
昨天的谷歌Next大会可是太精彩了,谷歌一连放出不少炸弹。 - 升级「视频版」Imagen 2.0,下场AI视频模型大混战 - 发布时被Sora光环掩盖的Gemini 1.5 Pro,正式开放 - 首款Arm架构CPU发布,全面对垒微软/亚马逊/英伟达/英特尔
 
王炸Sora发布后,想要分辨AI视频和真实视频变得更难了,各行各业都面临新的挑战与危机。
 
UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!
 
用不了多久,开源版的Sora就会涌来!理海大学微软团队已经做出一种全新多AI智能体框架Mora,可以完全复刻Sora能力,且生成视频效果几乎不相上下。
 
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
 
谷歌发布了一个新的视频框架:只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频。