奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
DeepSeek火爆全球,现在美国版“梁文锋”来了。来自美国的互联网券商巨头Robinhood的CEO——Vlad Tenev决定投身人工智能创业浪潮,与Tudor Achim联合打造了一家专注于人工智能的初创公司——Harmonic AI。
最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。
最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。
让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
最终体验 = 模型 + context (包括提示词、文件、代码库、业务数据,MCP服务等等一切喂给模型的东西),正好Andrej karpathy前几天天也整了个新提法叫Context engineering,这里可以碰瓷一下Andrej哈哈,这篇文章好几天前我发在小红书了
汪渊 Raymond 已经重新开始创业,而且方向是当红的 AI 应用,公司名叫:Orion Arm,主体注册在新加坡,主做海外市场。Orion Arm 最近刚刚完成一笔 1100 万美元融资,投后估值 1 亿美元。有趣的是,他们做的不是 Agent,不是当前热门的那些领域,而是纯粹的工具Orion Arm 发布了两款 AI 工具:日程管理类的 Toki 和新闻聚合类的 Syft。
蓝鲸科技从多位知情人士处独家获悉,前月之暗面核心产品负责人明超平AI编程项目“新言意码”新一轮融资估值数亿美金,红杉中国参与投资。相较上一轮估值翻了两倍以上。
还记得那个号称「全球首个设计 Agent」的 Lovart 吗?它是继 Manus 后在海外爆火的另一款 Agent 产品,而且学到了 Manus 的「精髓」:有邀请码才能体验。当时国内出现了「一码难求」的盛况。最近,这个 Lovart 出了国内版,名叫星流 Agent,专注于设计和创意内容生成
总部位于洛杉矶的人工智能视频生成初创公司Moonvalley 团队认为,仅靠文本提示无法完成电影制作。