
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令人和智能体共享奖励参数,这才是强化学习正确的方向?
人和智能体共享奖励参数,这才是强化学习正确的方向?
其实大模型在DeepSeek-V3时期就已经「顿悟」了?
DeepSeek啥都开源了,就是没有开源训练代码和数据。现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。
回应DeepSeek,阶跃星辰亮出“三件套”:开源,多模态推理,AI Agent。
中国首个全自研空间智能AI诞生了,单图即可生成360度无限3D场景,实时互动自由探索。这不仅是技术的革新,更预示着,游戏电影等领域即将迎来颠覆性的变革。
2025 年普遍被认为是智能体爆发元年,AI 应用将出现井喷式增长。然而,在大家纷纷将目光投向智能体的同时,另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。
各位同学好,我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论,我们(Datawhale X 似然实验室)使用 3 张 A800(80G) 计算卡,花了 20 小时训练时间,做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本,我们把它叫做 Datawhale-R1,用于 R1 Zero 复现教学。
一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。
奥特曼罕见地承认了自己犯下的「历史错误」,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!
冬天来了,家里下雪了吗?