跨层压缩隐藏状态同时加速TTFT和压缩KV cache!
跨层压缩隐藏状态同时加速TTFT和压缩KV cache!我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?
我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?
目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。
微软AI负责人Mustafa Suleyman表示,只有生物体才能具备意识,开发者和研究人员应该停止追求让AI具有意识。
Marble,终于来了。 没错,就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚,李飞飞旗下的 World Labs 公司官宣向全体用户开放,还一次性放出了一大波新功能。 多模态生成:
刚刚,ChatGPT突然更新了!模型直接升级为GPT-5.1,官方主打更智能、更具对话性。没有跑分,没有打榜,主打的就是一个有人设,说人话,更情绪价值。作为GPT-5系列的升级版本,GPT-5.1主要包括两个子模型:
先说一句最关键的。十月,ChatPlayground.ai 的月访问量估算为25万上下,环比暴涨六倍多,具体是 611.53%。这个数据来自 Toolify 的十月增长榜。
还记得今年上半年小红书团队推出的DeepEyes吗?
如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?
如今的聊天机器人无所不能,只要是能用文字表达的内容,无论是恋爱建议、工作文书,还是编程代码,AI 都能生成,哪怕不完美。但几乎所有聊天机器人都有一个绝不会做的事:主动结束与你的对话。
我们长期把LLM当成能独闯难关的“单兵”,在很多任务上,这确实有效。