AI资讯新闻榜单内容搜索-AI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI
清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

在十九世纪的暹罗王国曾诞生过这样一对连体兄弟:他们分别拥有完整的四肢和独立的大脑,但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚,直到他们离开暹罗,走上马戏团的舞台。十年间,两兄弟以近乎合二为一的默契巡演欧美,获得巨大成功。

来自主题: AI技术研报
5200 点击    2026-02-11 13:59
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
6592 点击    2026-02-11 13:58