AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报
8018 点击    2026-03-03 14:17
Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

为了松绑参数与计算量,MoE 曾被寄予厚望 。它靠着稀疏激活的专家子网络,在一定程度上实现了模型容量与计算量的解耦 。然而,近期的研究表明,这并非没有代价的免费午餐 :稀疏模型通常具有更低的样本效率 ;随着稀疏度增大,路由负载均衡变得更加困难 ,且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型 。

来自主题: AI技术研报
7738 点击    2026-03-03 14:15
想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

MMLab@NTU联合中山大学的最新研究,给出了一份从入门到精通的终极“菜谱”——VLANeXt。这项研究没有简单提出一个新模型了事,而是系统性地从12个关键维度,深度剖析了VLA的设计空间。从基础组件到感知要素,再到动作建模的额外视角,每一步都有扎实的实验支撑。

来自主题: AI技术研报
7666 点击    2026-03-03 10:44
13 vs 3,国产安全AI悄悄完成了对Claude的超越

13 vs 3,国产安全AI悄悄完成了对Claude的超越

13 vs 3,国产安全AI悄悄完成了对Claude的超越

在AI自主挖洞这块试金石上,国产安全智能体完成了一次“溢出式”对标。最近,Anthropic官方披露了Claude Code Security(基于最新的Claude Opus 4.6模型)在实际项目中的战果:

来自主题: AI资讯
6931 点击    2026-03-02 14:54
ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。

来自主题: AI技术研报
7776 点击    2026-03-02 14:31
GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:

来自主题: AI技术研报
8502 点击    2026-03-02 10:12
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

中国人民大学团队在论文DLLM-Searcher中,第一次让扩散大语言模型(dLLM)学会了这种“一心二用”的本事。目前主流的搜索Agent,不管是Search-R1还是R1Searcher,用的都是ReAct框架。这个框架的执行流程是严格串行的:

来自主题: AI技术研报
7333 点击    2026-03-02 10:00
支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

我们开源的 Open Cowork,正是一次面向 “桌面端虚拟同事” 的实践:一键安装、无需写代码,让模型在安全沙箱里操作你的工作空间,既能产出 PPT/Word/Excel/PDF 等专业成果,也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。

来自主题: AI技术研报
7874 点击    2026-03-02 10:00
西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

现有Rectified Flow(RF)模型在反演阶段面临的核心挑战,是逆向ODE对微小误差高度敏感,容易沿着数值不稳定方向偏离前向流形,导致轨迹发散、重建不一致、编辑不可控。为解决这一问题,团队提出PMI(Prox-Mean-Inversion),一种针对RF反演稳定性的轻量化修正机制。

来自主题: AI技术研报
8004 点击    2026-03-02 09:59
Claude Code之父首曝:「养蛊式」开发,质量碾压老架构师

Claude Code之父首曝:「养蛊式」开发,质量碾压老架构师

Claude Code之父首曝:「养蛊式」开发,质量碾压老架构师

你以为你在用AI编程?其实你只是在陪它聊天!Claude Code内部指南曝光,别再和它玩你问我答了,它比你想象中更懂怎么修Bug。

来自主题: AI资讯
7709 点击    2026-03-01 11:24