
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现?
什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现?
Qwen 3还未发布,但已发布的Qwen系列含金量还在上升。2个月前,李飞飞团队基于Qwen2.5-32B-Instruct 模型,以不到50美元的成本训练出新模型 S1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今,他们的视线再次投向了这个国产模型。
世界模型领域最新进展,要比拼“世界生成”了。
4月7日,斯坦福以人为本人工智能研究所(HAI)发布《2025年AI指数报告》,这份长达456页的报告,全景展示了过去一年AI领域的关键进展。
2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。
当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
自由与好奇心是学术研究最宝贵的特质,正是对未知的执着探索,才能孕育改变世界的创新。
现如今机器人又是跑步又是后空翻,但到底什么时候能做上家务给人类养养老?
斯坦福李飞飞团队在「保姆型」机器人上新突破!提出BRS综合框架,以后机器人执行日常家务更自主、更可靠。
美国硅谷的华裔精英们远不止他们......