
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现?
来自主题: AI技术研报
6685 点击 2025-04-25 15:35
什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现?
刚刚,清华大模型团队 LeapLab 发布了一款面向 Agent 协作的开源框架:Cooragent。
我们是否还有另一个选择,可以让人类完美通关历史?来自密歇根和罗格斯大学的学者利用LLM对历史上的战争进行模拟推演结果,会是我们的参考答案吗?
日前,由美国罗格斯大学和密西根大学研究团队提出的 AI Agent——WarAgent 便成功模拟了包括第一次世界大战、第二次世界大战和中国古代战国时期战争在内的历史重大国际冲突。