
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员一个超越DeepSeek GRPO的关键RL算法出现了!这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现已开源。禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。
来自主题: AI资讯
7447 点击 2025-03-20 23:06