3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。
搜索
在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。
千亿参数内最强推理大模型,刚刚易主了。32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——
终于,华为盘古大模型系列上新了,而且是昇腾原生的通用千亿级语言大模型。我们知道,如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。
尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;AI - MO。」
本文作者刘圳是香港中文大学(深圳)数据科学学院的助理教授,肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生,刘威杨是德国马克思普朗克-智能系统研究所的研究员,Yoshua Bengio 是蒙特利尔大学和加拿大 Mila 研究所的教授,张鼎怀是微软研究院的研究员。此论文已收录于 ICLR 2025。
人和智能体共享奖励参数,这才是强化学习正确的方向?
在大模型争霸的时代,算力与效率的平衡成为决定胜负的关键。
高质量数据枯竭,传统预训练走向终点,大模型如何突破瓶颈?
“让机器人看懂世界、听懂指令、动手干活”正从科幻走向现实。
上海人形机器人玩家傅利叶,首款开源产品来了!刚刚,发布小·人形机器人——Fourier N1。据了解,首批开源内容,可以直接实现本体以及走路和小跑功能,未来傅利叶还将持续更新推理代码和训练框架,确保上述功能都能复现。