北大字节开源首个时空推理视频模型!思考过程全透明,性能超越GPT-4o
北大字节开源首个时空推理视频模型!思考过程全透明,性能超越GPT-4oAI看视频也能划重点了!
AI看视频也能划重点了!
静态编排 VS 动态编排,谁是多agent系统最优解?通常来说,面对简单问题,采用react模式的单一agent就能搞定。可遇到复杂问题,单一agent就会立刻出现包括但不限于以下问题:串行执行效率低:无法同时完成并行的子步骤(如 “同时爬取 A、B 两个网站的数据”)。
当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?
Gemini APP 前几天上线了 PPT 生成的能力,我昨天尝试了一下发现相当可以啊。
近期,Google DeepMind 发布新一代具身大模型 Gemini Robotics 1.5,其核心亮点之一便是被称为 Motion Transfer Mechanism(MT)的端到端动作迁移算法 —— 无需重新训练,即可把不同形态机器人的技能「搬」到自己身上。不过,官方技术报告对此仅一笔带过,细节成谜。
扩散大语言模型得到了突飞猛进的发展,早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散大型语言模型,同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA,5 月份 Gemini Diffusion 也接踵而至。
今天翻 GitHub Trending 的时候,看到一个不怎么眼熟的项目占据榜单第一。 仔细一看,是个多 Agent 舆情分析助手,名字叫「微舆 BettaFish」。再往下拉,发现它 star 已经过万了,而且还是最近十几天突然暴涨。
这篇论文提出了一种颠覆性的协作模式,即通过强化学习训练一个“小模型”作为智能代理(Agent),让它自动学会如何写出完美的Prompt,一步步引导任何一个“大模型”完成复杂推理,实现了真正的“AI指挥AI”。
当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。
Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。