AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文(https://arxiv.org/abs/2509.01684)直指RL强化学习在机器学习工程(Machine Learning Engineering)领域的两个关键问题,并克服了它们,最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示(prompting)的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯
6395 点击    2025-09-06 11:35
AI搜索引擎,苹果决定自研!代号WKA

AI搜索引擎,苹果决定自研!代号WKA

AI搜索引擎,苹果决定自研!代号WKA

苹果自研AI搜索引擎,刚刚曝光!据长期追踪苹果资讯的彭博社记者古尔曼爆料,这家公司预计又有两个新动作: 一是在明年春季推出一款代号为“世界知识问答”(World Knowledge Answers)的AI搜索引擎,与ChatGPT和Perplexity展开直接竞争;二是当下倾向于与谷歌合作,利用谷歌模型为Siri的部分功能提供技术支持。

来自主题: AI资讯
5105 点击    2025-09-04 13:17
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

谷歌回归搜索老本行,这一次,它要让 AI 能像人一样「看见」网页。 这是谷歌前不久在 Gemini API 全面上线的 URL Context 功能(5 月 28 日已在 Google AI Studio 中推出),它使 Gemini 模型能够访问并处理来自 URL 的内容,包括网页、PDF 和图像。

来自主题: AI资讯
7259 点击    2025-09-02 16:06
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报
5358 点击    2025-09-01 16:49
空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了

空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了

空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了

最近3D内容生成模型好生热闹,像谷歌Genie 3、World Labs、混元、昆仑争相发布并开测世界模型。

来自主题: AI资讯
7787 点击    2025-08-27 18:50
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 “仿真到现实”(Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性未知的真实世界。

来自主题: AI技术研报
6811 点击    2025-08-27 11:05
大厂“抢滩”具身智能

大厂“抢滩”具身智能

大厂“抢滩”具身智能

2023年5月,英伟达创始人黄仁勋在ITF World半导体大会上断言:“AI的下一个浪潮是具身智能。” 这一判断迅速被产业趋势所验证,从在春晚舞台上扭秧歌,到不久前机器人大会上跳舞和打拳击赛,具身智能正以前所未有的速度进入公众视野。

来自主题: AI资讯
6165 点击    2025-08-24 13:13
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报
6239 点击    2025-08-22 17:23
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报
6010 点击    2025-08-22 16:35
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

来自主题: AI技术研报
6636 点击    2025-08-18 11:53