AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

来自主题: AI技术研报
5992 点击    2025-10-31 10:27
刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力

刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力

刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力

今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。

来自主题: AI资讯
8235 点击    2025-10-30 18:07
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。

来自主题: AI技术研报
5819 点击    2025-10-30 10:26
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务,创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报
9119 点击    2025-10-29 10:24
VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报
6500 点击    2025-10-29 09:53
DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

当AI开始「自己学会学习」,人类的角色正在被重写。DeepMind最新研究DiscoRL,让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero,在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报
9238 点击    2025-10-28 14:56
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报
7543 点击    2025-10-28 10:50
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报
7023 点击    2025-10-28 09:26
看似万能的 AI,其实比你想的更脆弱和邪恶

看似万能的 AI,其实比你想的更脆弱和邪恶

看似万能的 AI,其实比你想的更脆弱和邪恶

十月,《纽约时报》发表了题为《The A.I. Prompt That Could End the World》(《那个可能终结世界的 AI 提示词》)的文章。作者 Stephen Witt 采访了多位业内人士:有 AI 先驱,图灵奖获奖者 Yoshua Bengio;以越狱测试著称的 Leonard Tang;以及专门研究模型欺骗的 Marius Hobbhahn。

来自主题: AI技术研报
8687 点击    2025-10-27 15:58