AI资讯新闻榜单内容搜索-训练

打破碎片化瓶颈！浙大&哈佛开源UniGeo，高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导，实现稳定、高质量的相机可控图像生成，全面超越现有方法，在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报

6714 点击 2026-05-07 15:04

Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

Anthropic最新研究让AI先读懂规范背后的意义，再接受行为示范，在特定实验中将Agent失控率从54%压到7%。

来自主题: AI资讯

6033 点击 2026-05-07 15:03

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

随着代码智能从 code foundation models 走向 autonomous coding agents，CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

来自主题: AI技术研报

5986 点击 2026-05-07 15:03

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈，北大团队提出SEAlign对齐框架：显著提升软件工程智能体决策质量

在代码大模型和代码智能体技术快速发展的今天，一个日益凸显的现象是：能够在经典代码生成基准上取得优异成绩的模型，一旦被放入真实软件工程环境中，表现却往往大幅下滑。

来自主题: AI技术研报

6904 点击 2026-05-07 15:02

Claude团队用Qwen测试全新训练方法

别人做AI中训练都在堆语料、补知识。

来自主题: AI技术研报

7868 点击 2026-05-07 15:01

多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

把强大模型的能力“蒸馏”给小模型，听起来很美—— 但放到多轮对话Agent场景里，效果往往一塌糊涂。

来自主题: AI技术研报

8935 点击 2026-05-07 10:17

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

9055 点击 2026-05-07 10:16