AI TNT— 让一部分先用AI实现商业化

OpenAI的研究科学家布朗（Noam Brown），这两天在他的自我介绍中，加上了一条：OpanAI o1的联合创始人。

来自主题: AI资讯

2473 点击 2024-09-18 10:56

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。

来自主题: AI技术研报

5532 点击 2024-09-15 14:41

清华、北大等发布Self-Play强化学习最新综述

本文作者来自于清华大学电子工程系，北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士，主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报

6790 点击 2024-09-10 11:48

北大领衔，多智能体强化学习研究登上Nature子刊

近日，由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果 ——「大规模多智能体系统的高效强化学习」在人工智能顶级学术期刊 Nature Machine Intelligence 上发表。

来自主题: AI技术研报

6597 点击 2024-09-06 11:55

又有AI创始人卖身大厂！带走25%员工留下空壳，为吴恩达第一位博士生

又有AI初创公司创始人卖身大厂——

来自主题: AI技术研报

5840 点击 2024-09-02 14:41

Yann LeCun不看好强化学习：「我确实更喜欢 MPC」

「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从 2016 年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」

来自主题: AI资讯

6650 点击 2024-08-26 16:25