AI资讯新闻榜单内容搜索-模型训练

多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

把强大模型的能力“蒸馏”给小模型，听起来很美—— 但放到多轮对话Agent场景里，效果往往一塌糊涂。

来自主题: AI技术研报

8905 点击 2026-05-07 10:17

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

8983 点击 2026-05-07 10:16

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

你有没有想过，为什么 AI 读一篇短文游刃有余，却在面对一整个代码库时频频出错？

来自主题: AI技术研报

6554 点击 2026-05-06 14:57

公里级场景也能稳住了，国产团队把长视频3D重建又往前推了一步

长视频 3D 重建最怕的，其实不是 "看不清"。

来自主题: AI技术研报

8880 点击 2026-05-06 14:30

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习（RL）优化文生图模型的 prompt following 能力，是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片，通过 reward model 计算 reward，再利用相关 RL 算法优化模型。

来自主题: AI技术研报

7733 点击 2026-05-06 14:27

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住了

Anthropic联合创始人Jack Clark读完数百份公开数据，得出一个让他自己也坐不住的结论：2028年底前，AI自己造AI的概率是60%。支撑他这一判断的，是编程、科研复现、模型训练优化等多条能力曲线：每一条都在向右上方飞，没有减速迹象。

来自主题: AI资讯

7570 点击 2026-05-06 09:48

SkVM：优化你的Skills能够跨模型、跨Harness、跨环境稳定运行｜SJTU最新

如果您经常用Claude Code、OpenCode、OpenClaw这类Agent框架，大概率会遇到一种不稳定现象：同一个Skills，用Claude能跑，换成Qwen就不行了；在Claude Code里稳定的流程，换到OpenClaw可能输出格式崩掉；在作者环境里正常的脚本，到了自己机器上可能因为缺依赖进入反复报错。

来自主题: AI技术研报

10999 点击 2026-05-06 09:08

CVPR 2026 Oral｜横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

在具身智能研究中，如何让智能体精准理解周围环境的精细几何结构与开放语义信息，始终是具身感知的核心难题。近年来，语义占据预测（Semantic Occupancy Prediction）将稠密几何与语义信息统一到三维体素网格中，用于构建 3D 语义占据地图，为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报

10760 点击 2026-05-06 09:07

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

随着MCP、Agent Skills与各类Harness的快速发展，大模型能轻松调用成百上千种外部工具，但在多工具，具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境（如订票系统，外卖平台），但仍受限于环境扩展的规模与真实性。

来自主题: AI技术研报

6880 点击 2026-05-06 09:06

非常抽象：一群AI研究员给模型制造了让它们上瘾的毒品

2026年，一群AI研究者给模型制造了毒品。没错，论文中就叫毒品——AI Drugs。他们生成了一些256×256像素的图片，这些我们看着全是毫无意义的色块。但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

来自主题: AI技术研报

9616 点击 2026-05-05 22:19

AI资讯新闻榜单内容搜索-模型训练

多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

公里级场景也能稳住了，国产团队把长视频3D重建又往前推了一步

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住了

SkVM：优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 ｜SJTU最新

CVPR 2026 Oral｜横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

非常抽象：一群AI研究员给模型制造了让它们上瘾的毒品

SkVM：优化你的Skills能够跨模型、跨Harness、跨环境稳定运行｜SJTU最新