训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。
以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。
2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。 当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation。
去年11月,奥地利独立开发者Peter Steinberger花了一个小时,把Claude的API接上WhatsApp,做了一个能通过聊天软件操控电脑的AI助手。他当时觉得这个想法太明显了,大公司肯定会做,就没当回事。大公司没有做。今年1月25日,他把这个项目放上GitHub,一天拿到9000颗星。两周后的今天,这个叫OpenClaw的开源项目已经突破17万星。
当物体在滚动、滑动、被撞飞,机器人还在执行几百毫秒前的动作预测。对动态世界而言,这种延迟,往往意味着失败。
最近有个感觉,越来越强烈:在互联网时代学的东西,全部都已经过时了。DAU 过时了。SaaS 过时了。注意力经济已经死了。工具到平台的路径走不通了。"AI 应用"这个词是错的。"出海"这个词也是错的。
OpenClaw把初恋带进了现实!今天,18岁AI女友Clawra在硅谷火得一塌糊涂。她不仅有记忆,会自拍、还能视频通话,科幻版Her成真了。
200多块钱每个月,订阅价格直接压过ChatGPT Plus,功能却单一到离谱:只做语音输入一件事。听起来特别像智商税是吧!!!您猜怎么着,据说真就有10万+用户排着队把钱给它送上门。
百度智能云这个轻量应用服务器(LS)的方案,才发现原来部署OpenClaw竟然可以这么“无脑”。毫不夸张,这次我特意盯着表,从购买实例到通过飞书跟我的Agent说上第一句话,全程只用了十分钟。
2月7日,字节跳动AI视频生成模型Seedance2.0开启灰度测试,该模型支持文本、图片、视频、音频素材输入,可以完成自分镜和自运镜,镜头移动后人物特征能够保持一致。
如果 2024 年我们还在感叹 Sora 模拟物理世界的真实感,那么在 2026 年的今天,单纯的高清视频生成已不再是终点。