
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
说到底,还不是因为,当前市面上的大多数 AI 工具其实并没有真正把大家的工作流程打通,那些靠内部各平台、内外上下游、历史资料协同才能解决的问题,大多数 AI 工具都帮不上忙。而这些问题,才是各家老板焦虑的根源。
本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。
据知情人士透露,Anthropic 即将达成协议,在新一轮融资中筹集高达 100 亿美元资金,这一金额超出预期,成为人工智能初创企业迄今规模最大的超级融资轮之一。
8 月 21 日,快手科技发布的 2025 年第二季度业绩报告,各项核心财务指标表现稳健,超出了市场普遍预期。
一生充满传奇经历的AI先驱Warren Brodey逝世,享年101岁。这位精神病学家出身的思想家,早在AI曙光初露时,便在MIT探索技术解放人类潜能的道路。他在复杂系统和响应式技术方面所做的开拓性工作,为AI等领域的发展奠定了基础。
人在从杭州回北京的路上,想趁着脑子里的记忆还火热的时候,写下一些感悟。
知情人士透露,作为人工智能热潮中关键基础设施供应商的 Crusoe 能源系统公司,正计划以近 100 亿美元的估值进行新一轮融资。这笔交易将突显支撑 AI 系统运作所需的庞大资源。
软件+硬件的全链路国产 AI 体系来了? 这几天,不论国内国外,人们都在关注 DeepSeek 发布的 V3.1 新模型。
大模型耗电惊人,舆论一浪高过一浪。 现在,谷歌用硬核数据强势还击。