AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
Anthropic让AI先读员工手册再上岗:失控率从54%降到7%

Anthropic让AI先读员工手册再上岗:失控率从54%降到7%

Anthropic让AI先读员工手册再上岗:失控率从54%降到7%

Anthropic最新研究让AI先读懂规范背后的意义,再接受行为示范,在特定实验中将Agent失控率从54%压到7%。

来自主题: AI资讯
5671 点击    2026-05-07 15:03
TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

随着代码智能从 code foundation models 走向 autonomous coding agents,CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

来自主题: AI技术研报
5521 点击    2026-05-07 15:03
ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

在代码大模型和代码智能体技术快速发展的今天,一个日益凸显的现象是:能够在经典代码生成基准上取得优异成绩的模型,一旦被放入真实软件工程环境中,表现却往往大幅下滑。

来自主题: AI技术研报
6369 点击    2026-05-07 15:02
Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

别人做AI中训练都在堆语料、补知识。

来自主题: AI技术研报
7486 点击    2026-05-07 15:01
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。

来自主题: AI技术研报
8329 点击    2026-05-07 10:16
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
7225 点击    2026-05-06 14:27
AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

Anthropic联合创始人Jack Clark读完数百份公开数据,得出一个让他自己也坐不住的结论:2028年底前,AI自己造AI的概率是60%。支撑他这一判断的,是编程、科研复现、模型训练优化等多条能力曲线:每一条都在向右上方飞,没有减速迹象。

来自主题: AI资讯
7280 点击    2026-05-06 09:48