1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒
1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果
QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果
近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。
AI又又又帮陶哲轩解决了一个难题!消息来自陶本人最新发帖,他直言不讳地表示:甚至,如果没有AI,他也不会决定采用目前已经取得成功的关键策略。
Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。 其中「计算机使用智能
暴晒+ 沥青 + 锡板 = 世界上第一张照片? 听起来有些像是化学实验,但这正是被学界普遍认可的世界上第一张照片——《勒格哈的窗外景色》的诞生方式,尽管具体年份仍有争议,但也即将度过 200 岁的生日
近日,微软和多家公司、高校、研究机构组成的联合团队在生物科学领域发现了一个重大的“零日漏洞”。他们利用开源的人工智能蛋白质设计工具,基于 72 种已知危险蛋白,模拟生成了 7 万多种原始有害蛋白质的变体,并将它们放入 4 种现有的生物安全筛查系统中。
今年滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」,目前产品体验仅有微信小程序端。不同于 GeoGuessr 的娱乐性,它更偏向实用的工具属性:拍一张,就能知道在哪儿;想去哪里,AI 马上帮你找。
想象一下,医院和诊所里三分之一的员工不是在治病救人,而是在接电话、填表格、追保险理赔。这不是什么小问题,而是一个让整个医疗体系运转缓慢、成本高昂的巨大黑洞。
终于,Nano Banana正式开放API了! 现在大家不仅可以直接在Google AI Studio里基于Nano Banana,手动搓出属于自己的App,还可以通过Gemini API接入任意发挥了。
大模型最让人头疼的毛病,就是一本正经地「瞎编」。过去,只能靠检索补丁或额外训练来修。可在NeurIPS 2024 上,谷歌抛出的新方法SLED却告诉我们:模型其实知道,只是最后一步忘了。如果把每一层的「声音」都纳入考量,它就能从幻觉中被拉回到事实。