AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

昨天,苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。论文中,苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架 RLAX。是的,你没有看错,不是 GPU,也不是苹果自家的 M 系列芯片,而是谷歌的 TPU!还不止如此,这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

来自主题: AI技术研报
7442 点击    2025-12-13 11:08
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式对外展示了其在通用世界模型(General World Models/GWM)上的野心。

来自主题: AI资讯
8510 点击    2025-12-12 16:19
Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

提起马卡龙,你会想到什么?是橱窗里的精致甜点,一种“少女心”的味觉象征?还是代表了温柔优雅的时尚配色?当一个AI产品也被命名为“马卡龙”,这份联想便悄然发生了偏移:从舌尖的甜,转向科技的未知,却又奇妙地保留了那一份色彩与气质。

来自主题: AI资讯
9127 点击    2025-12-11 15:34
只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

最近,Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家(Mixture-of-Experts)模型,基于Prime Intellect的强化学习(RL)技术栈训练。在数学、代码、科学与推理的各类基准测试上,它达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型。

来自主题: AI资讯
8409 点击    2025-12-10 16:14
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B

近日,来自 NatureSelect(自然选择)的研究团队 Team Echo 发布了首个情感大模型 Echo-N1,提出了一套全新的「情感模型训练方法」,成功将 RL 用在了不可验证的主观情感领域。仅 32B 参数的 Echo-N1,在多轮情感陪伴任务中胜率(Success Rate)达到 46.7%。作为对比,

来自主题: AI资讯
7570 点击    2025-12-10 14:38
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6038 点击    2025-12-10 14:33
速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

速递|德国AI客服独角兽Parloa估值半年翻倍,冲刺20-30亿美元,拟融资2亿美元

据知情人士透露,开发客户服务人工智能的德国初创公司Parloa正在寻求新一轮融资,估值将较今年5月大幅提升。这家在德国和纽约设有办公室的公司,已与包括General Catalyst在内的投资者进行了洽谈,寻求筹集约2亿美元的新资金。知情人士称,Parloa正在讨论的潜在估值区间约为20亿至30亿美元。

来自主题: AI资讯
7623 点击    2025-12-08 11:52
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报
5316 点击    2025-12-08 10:27