AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

过去一周全网都在养那只红色卡通龙虾 OpenClaw。作为能够自己动手干活的 AI 智能体,有人花几千块请它回家,几天后账号被盗、文件被删,又花几百块请人卸载。从排队安装到扎堆卸载只隔了一周。

来自主题: AI技术研报
9191 点击    2026-03-17 14:34
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
5852 点击    2026-03-16 14:26
养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

先提前预告下,这个项目解决不了不赚钱的问题,但能帮助减少冲动交易,解决信息搜集、分析效率低问题。当然,也有同事吐槽,这是个韭菜RL,大家有选择地参考与批判一下就好。

来自主题: AI技术研报
6944 点击    2026-03-16 09:50
ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

在 AI 视觉生成领域,扩散模型(DM)凭借其强大的高保真数据生成能力,已成为图像合成、视频生成等多模态任务的核心框架。然而,预训练后的扩散模型如何高效适配下游应用需求,一直是行业面临的关键挑战。

来自主题: AI技术研报
7593 点击    2026-03-10 09:30
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。

来自主题: AI技术研报
5636 点击    2026-03-09 14:29
李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型

李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型

李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型

在 50 亿美元估值神话的背后,这一空间智能的最新高地正被国内创业公司攻克并推向产业纵深。近日,影溯(InSpatio)正式发布并开源了其实时帧生成模型 InSpatio-WorldFM,一个实时交互的 3D 世界模型。这标志着中国团队在空间智能底层技术上取得了奠基性突破,而且以开放的姿态,正成为推动 AI 从虚拟屏幕走向物理现实的关键破局者。

来自主题: AI资讯
9818 点击    2026-03-06 15:40
OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队

OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队

OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队

机器之心编辑部 近日,一款名为 StoryWorld 的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注:用户只需用手机摄像头对准真实空间,通过语音输入描述,即可生成 3D 角色与物

来自主题: AI资讯
9276 点击    2026-03-06 11:35
又走一个!OpenAI研究VP离职,转投Anthropic做RL研究员

又走一个!OpenAI研究VP离职,转投Anthropic做RL研究员

又走一个!OpenAI研究VP离职,转投Anthropic做RL研究员

OpenAI的人才地震还在继续!刚刚,前研究副总裁Max Schwarzer宣布离职,这位亲手主导o1、o3和整个GPT-5系列post-training的核心人物,选择加入Anthropic,重返一线RL研究。

来自主题: AI资讯
8853 点击    2026-03-05 14:57
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。

来自主题: AI技术研报
9288 点击    2026-03-04 11:23