AI资讯新闻榜单内容搜索-Traini

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

只花120元，效果吊打70000元微调！腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数，只要在提示词中学习简短经验，即可实现高性价比提升模型性能。

来自主题: AI技术研报

9054 点击 2025-10-15 17:06

真正的AI竞争力，藏在大模型“后训练”这一步

当全球的目光还在聚焦基座模型的参数竞赛时，一场更为深刻的变革正在悄然发生——后训练（Post-Training）。

来自主题: AI技术研报

7576 点击 2025-10-14 10:16

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

6481 点击 2025-10-12 14:59

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文，系统性地回答了这个问题，他们不仅通过大量实验证实了这一现象，更进一步提出了一个简洁而深刻的解释，并将其命名为 “RL's Razor”（RL的剃刀）。

来自主题: AI技术研报

6504 点击 2025-09-18 14:26

OpenAI内部大重组！模型行为团队并入Post Training，负责人另起炉灶

OpenAI又要成立新团队了！

来自主题: AI资讯

8008 点击 2025-09-08 17:19

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首

OpenAI重磅结构调整：ChatGPT「模型行为」团队并入Post-Training，前负责人Joanne Jang负责新成立的OAI Labs。而背后原因，可能是他们最近的新发现：评测在奖励模型「幻觉」，模型被逼成「应试选手」。一次组织重组+评测范式重构，也许正在改写AI的能力边界与产品形态。

来自主题: AI技术研报

8617 点击 2025-09-07 12:20

AI破解宠物心声，读懂你的猫狗？全球首个AI与动物感知中心揭秘

伦敦政治经济学院的Jeremy Coller动物感知中心以400万英镑的资助，集结神经科学、哲学与AI专家，研究从猫狗到章鱼的动物意识。研究中心正用科学揭开动物意识之谜，探索AI在宠物交流中的潜力与风险。

来自主题: AI资讯

7514 点击 2025-07-25 18:07

大模型竞赛转向：决胜关键为何是“后训练”？

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透，AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练（Post-training），正从过去锦上添花的“调优”环节，演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报

7423 点击 2025-07-20 12:30

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

近年来，随着扩散模型（Diffusion Models）和扩散 Transformer（DiT）在视频生成领域的广泛应用，AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型，已经能够生成结构清晰、细节丰富且高度连贯的长视频内容，为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。

来自主题: AI技术研报

7261 点击 2025-07-14 10:42

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

在互联网信息检索任务中，即使是很强的LLM，有时也会陷入“信息迷雾”之中：当问题简单、路径明确时，模型往往能利用记忆或一两次搜索就找到答案；但面对高度不确定、线索模糊的问题，模型就很难做对。

来自主题: AI技术研报

7306 点击 2025-07-08 11:05