AI资讯新闻榜单内容搜索-强化学习算法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习算法
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU  门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报
6838 点击    2025-10-19 11:48
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

让智能体自己摸索新方法,还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

来自主题: AI技术研报
6857 点击    2025-10-13 15:45
当提示词优化器学会进化,竟能胜过强化学习

当提示词优化器学会进化,竟能胜过强化学习

当提示词优化器学会进化,竟能胜过强化学习

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法? 是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

来自主题: AI技术研报
6780 点击    2025-08-01 11:42
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
7282 点击    2025-07-11 16:23
多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

在人工智能领域,具有挑战性的模拟环境对于推动多智能体强化学习(MARL)领域的发展至关重要。在合作式多智能体强化学习环境中,大多数算法均通过星际争霸多智能体挑战(SMAC)作为实验环境来验证算法的收敛和样本利用率。

来自主题: AI技术研报
7814 点击    2025-01-05 20:51
性能提升、成本降低,这是分布式强化学习算法最新研究进展

性能提升、成本降低,这是分布式强化学习算法最新研究进展

性能提升、成本降低,这是分布式强化学习算法最新研究进展

分布式强化学习是一个综合的研究子领域,需要深度强化学习算法以及分布式系统设计的互相感知和协同。考虑到 DDRL 的巨大进步,我们梳理形成了 DDRL 技术的展历程、挑战和机遇的系列文章。

来自主题: AI技术研报
2448 点击    2024-02-13 14:05
性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息,从而辅助表征高效地提取到长期未来信息。

来自主题: AI技术研报
8617 点击    2024-01-16 10:59
清华AI模型登Nature子刊:玩转城市空间规划,快人类3000倍

清华AI模型登Nature子刊:玩转城市空间规划,快人类3000倍

清华AI模型登Nature子刊:玩转城市空间规划,快人类3000倍

来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念,该模型可以进行复杂的城市空间规划。

来自主题: AI技术研报
4638 点击    2023-09-18 00:29