世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。
最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。
今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。
随着多模态大模型的不断演进,指令引导的图像编辑(Instruction-guided Image Editing)技术取得了显著进展。然而,现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战,往往需要用户进行多次尝试和手动筛选,难以实现稳定、高质量的「一步到位」式编辑。
为破解机器人产业「一机一调」的开发困境,智源研究院开源了通用「小脑基座」RoboBrain-X0。它创新地学习任务「做什么」而非「怎么动」,让一个预训练模型无需微调,即可驱动多种不同构造的真实机器人,真正实现了零样本跨本体泛化。
8 月 26 日,由香港投资管理有限公司(下称 “港投公司”)与北京智源人工智能研究院(下称 “智源研究院”)联合主办的首届 “AI 国际人才峰会” 在香港成功举办。香港特别行政区政府财政司司长陈茂波、港投公司行政总裁陈家齐、智源研究院理事长黄铁军等出席并致辞。
人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有顶尖团队面前的核心难题。这个难题,就是推理密集型信息检索(Reasoning-Intensive IR)。
最强具身大脑,宝座易主!在10项评测中,国产RoboBrain 2.0全面超越GPT-4o。这次,智源研究院开源了具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。不仅问鼎评测基准SOTA,还成功刷新跨本体多机协作技术范式!
让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。
智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。
AI迈入经验时代,2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿大计算机科学家Richard S. Sutton以“欢迎来到经验时代”为题发表主旨演讲