AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。

来自主题: AI技术研报
8013 点击    2025-03-21 10:40
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

一个超越DeepSeek GRPO的关键RL算法出现了!这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现已开源。禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

来自主题: AI资讯
7643 点击    2025-03-20 23:06
DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:

来自主题: AI技术研报
9151 点击    2025-03-20 09:57
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。

来自主题: AI技术研报
4777 点击    2025-03-18 17:14
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6531 点击    2025-03-13 14:41
AI研究员首次通过双盲同行评审,论文登上顶会ICLR!但已撤稿

AI研究员首次通过双盲同行评审,论文登上顶会ICLR!但已撤稿

AI研究员首次通过双盲同行评审,论文登上顶会ICLR!但已撤稿

历史上首个能通过双盲同行评审的AI系统Carl诞生了。它是Autoscience研究所的成果,能完成从构思到展示的整个研究过程,撰写的论文已被国际顶会ICLR接受,其能力令人惊叹。

来自主题: AI技术研报
5944 点击    2025-03-09 14:17
上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

回顾 AGI 的爆发,从最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报
4031 点击    2025-03-06 09:46
全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!

来自主题: AI技术研报
6737 点击    2025-03-05 20:42
谷歌科学家Nicholas Carlini:17个AI用法,让打工人效率翻倍

谷歌科学家Nicholas Carlini:17个AI用法,让打工人效率翻倍

谷歌科学家Nicholas Carlini:17个AI用法,让打工人效率翻倍

谷歌DeepMind 研究科学家 Nicholas Carlini,一位机器学习和计算机安全领域的大牛。以最贴近现实实用的角度,分享了他对大模型的看法,以及自己对大模型应用的50个案例。

来自主题: AI资讯
5737 点击    2025-03-05 08:49