快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
近日,有消息人士称,曾红极一时的 AI 聊天机器人公司 Character.AI 苦于运营 AI 模型的高昂成本,正在权衡两个选择:要么可能被出售,要么筹集新的资金。这几周,该公司与潜在买家、银行家以及员工进行了磋商。
近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
一生充满传奇经历的AI先驱Warren Brodey逝世,享年101岁。这位精神病学家出身的思想家,早在AI曙光初露时,便在MIT探索技术解放人类潜能的道路。他在复杂系统和响应式技术方面所做的开拓性工作,为AI等领域的发展奠定了基础。
Atlas进厂打工技能再进化!波士顿动力联手丰田研究院,首次让人形机器人Atlas能够通过语言指令驱动,一次性处理从折叠配件到整理仓架的复杂作业。这种LBM(Large Behavior Models,大行为模型)方法让机器人具备跨任务泛化能力,迈出了工业化实践的一大步。
7 月 29 日,一款 AI 智能耳机 Natura AI 在 Kickstarter 上发起众筹,目标金额 5 万美元,现已获得 815 人支持,共筹得了 12 万多美元。
AI 创业是一门生意。 在 day one 就要思考如何实现盈利、如何控制成本、支出的问题,尤其是小团队创业。 独立开发者 Arvid Kahl 是个「精打细算」创业的范例。
在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力
推理大模型(Large Reasoning Model)极大的促进了自然语言处理领域的发展,而信息检索领域的核心问题之一是文档排序,如何利用强大的推理大模型通过主动推理来判断文档的相关性,进而再对文档进行排序是一个值得探索的方向。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。