自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下
自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是:
OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是:
Mistral沉默好久,果然在憋大招。
全世界最大的电脑展之一——COMPUTEX台北电脑展正式拉开了序幕。 COMPUTEX大会自创办以来已有43年历史,是亚洲最大、全球第二的ICT产业盛会,本届展会以“AI Next”为主题,汇聚全球超2000家科技巨头与创新企业,不仅拥有着琳琅满目的参展品牌和产品,更重要的是,那些全球顶级的上游厂商、存储厂商和PC厂商们都会在这里公布全新一代产品。
当OpenAI、谷歌还在用Sora等AI模型「拍视频」,英伟达直接用视频生成模型让机器人「做梦」学习!新方法DreamGen不仅让机器人掌握从未见过的新动作,还能泛化至完全陌生的环境。利用新方法合成数据直接暴涨333倍。机器人终于「做梦成真」了!
今年,Google算是打了个翻身仗。
Veo 3实测来袭:从会说话的松饼到电影质感的短片,一句提示词就能打造电影质感短片,还能音画同步,好莱坞真的要慌了?DeepMind首席技术官更在访谈中透露,Deep Think模式像多线程大脑般并行推理,而AGI的竞赛早已超越单纯「堆算力」。
5月23-24日AICon上海站,聚焦Agent、多模态、端侧智能、Data for AI 等 50+ 热点话题,涉及 20+ AI 应用案例,兼具实操价值与未来洞见。
京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊!
今夜,谷歌彻底杀疯!2小时发布会,Gemini提及95次点亮全场。Gemini 2.5家族全系升级,Pro深度思考模型正刷榜。全新Imagen 4生成细节超逼真,Veo 3首次实现音视频融合。
手绘草图一键变身专业游戏形象: