
清华创业团队打造!国内首个专注AI推理Serverless GPU平台
清华创业团队打造!国内首个专注AI推理Serverless GPU平台你有没有遇到过这样的算力困境:买了 GPU,用不了几次就闲置烧钱,偶尔想用的时候却一卡难求?
你有没有遇到过这样的算力困境:买了 GPU,用不了几次就闲置烧钱,偶尔想用的时候却一卡难求?
仅需一个强化学习(RL)框架,就能实现视觉任务大统一?
强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深入探索。
别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始,然后逐步讲解扩散、流匹配,以及看看这些技术接下来会如何发展。
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
惊艳全球的Claude 4,但它到底是如何思考?来自Anthropic两位研究员最新一期博客采访,透露了很多细节。这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。
5 月 23 日,Plaud AI 创始人许高与《时代》杂志特约编辑 Charlie Campbell 在 Beyond Expo 展开了深度交流 —— 围绕“语音交互与人类智慧传递”、“生成式 AI 在工作流中的价值”、“个性化模型的演进”以及“AI 安全与地缘政治挑战”等多个维度展开探讨,还分享了 Plaud AI 在消费级 AI 硬件与人机协同方面的最新进展与长期愿景。
强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。
近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,
R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。