AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

来自主题: AI技术研报
7977 点击    2026-01-14 15:35
闷声赚钱的 RL 生意:每个任务,200-20000 美元

闷声赚钱的 RL 生意:每个任务,200-20000 美元

闷声赚钱的 RL 生意:每个任务,200-20000 美元

2025 年 9 月,The Information 报道 Anthropic 曾讨论在接下来一年内投入超过 10 亿美元用于 RL 环境建设。Epoch AI 最近发了一篇报告,采访了 18 位来自 RL 环境初创公司、neolab(Cursor 这类应用型 AI 公司)和前沿实验室的从业者

来自主题: AI资讯
10526 点击    2026-01-14 11:37
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

“软工任务要改多文件、多轮工具调用,模型怎么学透?高质量训练数据稀缺,又怕轨迹含噪声作弊?复杂 RL 训练成本高,中小团队望而却步?”

来自主题: AI技术研报
6119 点击    2026-01-13 16:36
一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

近年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自主题: AI技术研报
8512 点击    2026-01-13 16:13
AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

有了 AI,科学研究是否有一天可以摆脱对湿实验的高度依赖,通过在计算机中构建“虚拟细胞”,来模拟和理解新药可能产生的生物效应?如今,这一愿景正被逐步实现。由上海交通大学郑双佳教授及其研究团队打造的 V

来自主题: AI资讯
8251 点击    2026-01-11 10:10
一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报
8054 点击    2026-01-10 17:02
1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报
7862 点击    2026-01-07 18:35
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step 等⼀系列基本原语,分离了算法设计等部分与分布式训练基础设施关联,

来自主题: AI技术研报
8588 点击    2026-01-07 15:30