AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

在正式走近ChatGPT Agent之前,让我们介绍一下这次谈话的几位主角,他们分别是OpenAI团队核心成员Isa Fulford、Casey Chu和孙之清。我们团队分别开发了Operator和Deep Research,在分析用户请求时发现,Deep Research的用户非常希望模型能够访问需要付费订阅的内容或有门槛的资源,而Operator恰好具备这种能力。

来自主题: AI资讯
7518 点击    2025-07-24 09:50
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道,训练大模型本就极具挑战,而随着模型规模的扩大与应用领域的拓展,难度也在不断增加,所需的数据更是海量。大型语言模型(LLM)主要依赖大量文本数据,视觉语言模型(VLM)则需要同时包含文本与图像的数据,而在机器人领域,视觉 - 语言 - 行动模型(VLA)则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯
6609 点击    2025-07-22 14:57
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

实时强化学习来了!AI 再也不怕「卡顿」。 设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。

来自主题: AI技术研报
7493 点击    2025-07-18 14:06
打造全球首个强化学习云平台,九章云极是如何做到的?

打造全球首个强化学习云平台,九章云极是如何做到的?

打造全球首个强化学习云平台,九章云极是如何做到的?

从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

来自主题: AI资讯
5329 点击    2025-07-16 15:53
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报
5920 点击    2025-07-12 11:51
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
6092 点击    2025-07-11 16:23
2025上半年,AI Agent领域有什么变化和机会?| 峰瑞研究所

2025上半年,AI Agent领域有什么变化和机会?| 峰瑞研究所

2025上半年,AI Agent领域有什么变化和机会?| 峰瑞研究所

2025上半年AI Agent领域经历模型竞争加剧和范式演进,DeepSeek等新模型打破垄断,推动Tool Use和强化学习突破。Agent从Prompt、Workflow发展为自主决策、环境感知和工具使用的智能体。编程领域验证PMF,落地机会集中于垂直场景和C端创新,但商业壁垒和技术挑战仍待解决。

来自主题: AI资讯
7186 点击    2025-07-11 09:22
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯
5461 点击    2025-07-09 12:10