AI资讯新闻榜单内容搜索-ELF

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: ELF
NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

来自主题: AI技术研报
7105 点击    2024-11-18 14:54
OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报
9785 点击    2024-09-21 14:20
清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报
10007 点击    2024-09-10 11:48
LLM 进化分岔口:多模态、成本、代码推理

LLM 进化分岔口:多模态、成本、代码推理

LLM 进化分岔口:多模态、成本、代码推理

头部模型的新一代模型的是市场观测、理解 LLM 走向的风向标。即将发布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 无疑是 AGI 下半场最关键的事件。

来自主题: AI资讯
9344 点击    2024-09-06 11:44
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
9782 点击    2024-08-31 11:19
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

为了解决这个问题,一些研究尝试通过强大的 Teacher Model 生成训练数据,来增强 Student Model 在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下,如何持续迭代模型的能力,成为了亟待解决的问题。

来自主题: AI技术研报
7708 点击    2024-08-01 15:55
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

SelfGNN框架结合了图神经网络和个性化自增强学习,能够捕捉用户行为的多时间尺度模式,降低噪声影响,提升推荐系统鲁棒性。

来自主题: AI技术研报
7457 点击    2024-07-09 16:12