AI资讯新闻榜单内容搜索-Traini

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Traini

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

来自主题: AI技术研报

6338 点击 2026-04-23 14:05

世界引擎：Post-Training开启Physical AGI新纪元

世界引擎：Post-Training开启Physical AGI新纪元

世界引擎：Post-Training开启Physical AGI新纪元

一年前，DeepSeek R1 横空出世，人们才意识到，真正让模型产生推理能力质变的，不必是更大的预训练规模 —— 后训练，用强化学习、过程奖励、闭环反馈，以极低的代价解锁了原本需要数倍算力才能触达的能力边界。

来自主题: AI技术研报

6889 点击 2026-04-20 09:00

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出Proxy-GS（Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting），面向基于 MLP 的结构化 3D 高斯溅射（3DGS），

来自主题: AI技术研报

9703 点击 2026-03-18 16:10

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

来自主题: AI技术研报

10167 点击 2026-03-09 09:53

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

是不是经常纠结于 VLA（视觉 - 语言 - 动作）模型的训练技巧？面对层出不穷的 VLA 算法，是不是常常感到眼花缭乱，不知道哪种数据模态、训练策略最有效？别急，丰田研究院（TRI）和清华大学刚刚

来自主题: AI技术研报

9268 点击 2026-03-08 10:38

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

OpenAI的人才地震还在继续！刚刚，前研究副总裁Max Schwarzer宣布离职，这位亲手主导o1、o3和整个GPT-5系列post-training的核心人物，选择加入Anthropic，重返一线RL研究。

来自主题: AI资讯

9618 点击 2026-03-05 14:57

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

8442 点击 2026-02-11 13:58

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

在技术如火如荼发展的当下，业界常常在思考一个问题：如何利用 AI 发现科学问题的新最优解？

来自主题: AI技术研报

10991 点击 2026-01-28 14:55

让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了

近日，清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练（Contrastive Latent Action Pretraining, CLAP）框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐，也就是说，机器人能够直接从视频中学习技能！

来自主题: AI技术研报

8373 点击 2026-01-19 15:13

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

对于电子产品，我们已然习惯了「出厂即巅峰」的设定：开箱的那一刻往往就是性能的顶点，随后的每一天都在折旧。

来自主题: AI技术研报

9109 点击 2026-01-07 10:14

上一页当前第2页,共6页下一页