AI资讯新闻榜单内容搜索-ELF

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

代码模型可以自己进化，利用自身生成的数据来进行指令调优，效果超越GPT-4o直接蒸馏！

来自主题: AI技术研报

7979 点击 2024-11-28 20:44

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

自我纠错（Self Correction）能力，传统上被视为人类特有的特征，正越来越多地在人工智能领域，尤其是大型语言模型（LLMs）中得到广泛应用，最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

来自主题: AI技术研报

7105 点击 2024-11-18 14:54

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与Anthropic直接竞争

o1 模型何以成为企业游戏规则的改变者？

来自主题: AI资讯

7907 点击 2024-09-21 14:51

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报

9785 点击 2024-09-21 14:20

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

Self-play RL 开启 AGI 下半场

来自主题: AI资讯

9091 点击 2024-09-15 16:14

清华、北大等发布Self-Play强化学习最新综述

本文作者来自于清华大学电子工程系，北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士，主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报

10007 点击 2024-09-10 11:48

LLM 进化分岔口：多模态、成本、代码推理

头部模型的新一代模型的是市场观测、理解 LLM 走向的风向标。即将发布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 无疑是 AGI 下半场最关键的事件。

来自主题: AI资讯

9344 点击 2024-09-06 11:44

LLM的范式转移：RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始，整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道，Strawberry 就是之前的 Q-star，其合成数据的方法会大幅提升 LLM 的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上，帮助 OpenAI 新一代 Orion。

来自主题: AI资讯

9782 点击 2024-08-31 11:19

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

为了解决这个问题，一些研究尝试通过强大的 Teacher Model 生成训练数据，来增强 Student Model 在特定任务上的性能。然而，这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下，如何持续迭代模型的能力，成为了亟待解决的问题。

来自主题: AI技术研报

7708 点击 2024-08-01 15:55

图神经网络加持，突破传统推荐系统局限！北大港大联合提出SelfGNN：有效降低信息过载与数据噪声影响

SelfGNN框架结合了图神经网络和个性化自增强学习，能够捕捉用户行为的多时间尺度模式，降低噪声影响，提升推荐系统鲁棒性。

来自主题: AI技术研报

7457 点击 2024-07-09 16:12