AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。

来自主题: AI技术研报
5590 点击    2026-03-04 13:49
补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

2026 开年已两个月,Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 热潮至今仍在发酵,甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报
9236 点击    2026-03-04 13:46
李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

全新的具身模型空间能力评估范式 Theory of Space 突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。

来自主题: AI技术研报
9801 点击    2026-03-04 13:46
不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报
6766 点击    2026-03-04 13:44
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。

来自主题: AI技术研报
8650 点击    2026-03-04 11:23
数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。

来自主题: AI技术研报
7709 点击    2026-03-03 14:25
ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报
7192 点击    2026-03-03 14:20