AI资讯新闻榜单内容搜索-训练框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练框架
仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero,一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发,通过三个智能体的协同进化,自动生成高质量、难度自适应的课程,并持续提升模型推理能力。

来自主题: AI技术研报
6790 点击    2025-10-24 16:45
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报
6296 点击    2025-09-27 10:19
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。

来自主题: AI技术研报
6889 点击    2025-06-25 16:55
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。

来自主题: AI技术研报
10101 点击    2025-06-03 10:36
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
6115 点击    2025-04-22 08:39
又一上海人形机器人加入开源!全套图纸+代码,来自傅利叶

又一上海人形机器人加入开源!全套图纸+代码,来自傅利叶

又一上海人形机器人加入开源!全套图纸+代码,来自傅利叶

上海人形机器人玩家傅利叶,首款开源产品来了!刚刚,发布小·人形机器人——Fourier N1。据了解,首批开源内容,可以直接实现本体以及走路和小跑功能,未来傅利叶还将持续更新推理代码和训练框架,确保上述功能都能复现。

来自主题: AI资讯
9616 点击    2025-04-12 12:06
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的(例如 the 或 a 这样的功能性词汇),需要模型进行大量训练才能获得高级推理和对概念的理解能力,

来自主题: AI技术研报
5556 点击    2025-02-16 13:12