刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力
刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。
今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。
Flint 的核心理念是将网站从静态资产转变为自主 agent。Michelle 在她的文章中直言不讳地说:"是时候终结传统网站了。我们正在从网站作为静态资产的世界,转向网站成为自主 agent 的世界。"这句话听起来可能有些激进,但当你了解 Flint 的工作原理后,就会明白她为什么如此自信。
关键时刻,小扎再度出手调整高层架构,前元宇宙负责人Vishal Shah临危受命,接手AI产品管理,协助Nat Friedman整合AI产品战略。空降「高管」与老将的组合,或许可以让Meta的AI狂飙更「稳」一些。
Sora连更三大新功能:角色客串、视频拼接、社区排行榜。趁着更新的热度,Sora APP还在美国、加拿大、日本和韩国四个国家限时取消了邀请码限制,直接开放注册。此前Sora最火爆的功能是Cameo(客串):通过摄像头提取自己的的长相和声音特征,之后,就可以把自己”空投”到任何AI生成的场景里。
OpenAI正酝酿一场史诗级IPO,估值或高达1万亿美元,标志其从非营利探索者向AI巨头全面转型。通过削弱微软控制、强化自身独立性,OpenAI正为资本市场铺路,谋求支撑其万亿级AGI战略的资金弹药。若上市成功,这不仅将改写AI产业格局,也将考验其能否在商业利益与「让全人类受益」的使命之间保持平衡。
随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。
杨红霞要走一条和阿里、字节截然不同的模型训练之路。
微软 AI 首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)正试图走一条微妙的路线。
AI泡沫,比互联网泡沫还危险?投资人都在装作看不见?
当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。