AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

近日,中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性,为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems(NeurIPS 2024)。

来自主题: AI技术研报
3088 点击    2024-11-16 15:13
具身智能基础——强化学习

具身智能基础——强化学习

具身智能基础——强化学习

强化学习中的核心概念是智能体(Agent)和环境(Environment)之间的交互。智能体通过观察环境的状态,选择动作来改变环境,环境根据动作反馈出奖励和新的状态。

来自主题: AI技术研报
4539 点击    2024-11-11 20:56
DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

斯坦福大学奥马尔(Omar)的DSPy研究团队最近更新了他们的项目文档,发了很多不错的案例,以及很多国际知名企业的DSPy用例,这些可能对您的项目有启发。

来自主题: AI资讯
3427 点击    2024-11-04 10:09
Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor,再到最近的 Gemini 和 AlphaProof,Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。

来自主题: AI资讯
7626 点击    2024-10-29 18:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展,据业内人士分析披露,其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程,o1 基于现有大语言模型的强大推理能力,生成合理的推理过程,并将这些推理融入到其强化学习训练过程中。

来自主题: AI技术研报
9395 点击    2024-10-26 17:01
率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了! 中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报
3502 点击    2024-10-20 11:43