腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后,如何让大模型掌握这种并行探索多种推理路径的能力,成为了学界关注的焦点。
自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后,如何让大模型掌握这种并行探索多种推理路径的能力,成为了学界关注的焦点。
上下文学习”(In-Context Learning,ICL),是大模型不需要微调(fine-tuning),仅通过分析在提示词中给出的几个范例,就能解决当前任务的能力。您可能已经对这个场景再熟悉不过了:您在提示词里扔进去几个例子,然后,哇!大模型似乎瞬间就学会了一项新技能,表现得像个天才。
以腾讯元器平台上的「公众号智能体」为例,它提供了一种可能的解决方案。它最大的特点,是经过公众号创作者授权后,可自动读取该公众号发布的文章,并实时更新为知识库。对于我们前面提到的困惑,这个功能简直是打瞌睡送来了枕头。
来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文,系统性地回答了这个问题,他们不仅通过大量实验证实了这一现象,更进一步提出了一个简洁而深刻的解释,并将其命名为 “RL's Razor”(RL的剃刀)。
ICPC 2025全球总决赛诞生历史性一幕:谷歌Gemini与OpenAI推理模型同时斩获金牌!Gemini在5小时内攻下12题中的10题,并在30分钟破解难倒所有人类的死亡C题;而OpenAI更是满分12/12,碾压139支人类队伍,成为赛场唯一全解团队。
通义DeepResearch团队 投稿 量子位 | 公众号 QbitAI 阿里开源旗下首个深度研究Agent模型通义DeepResearch! 相比于基于基础模型的ReAct Agent和闭源Deep
CEO私人助理的活儿,也被Agent盯上了。 每天能独立更新出全公司的日报版“今日头条”,还是完全本地部署、开箱即用的那种:没错,整个机箱就A4大小,跟iPhone 15 Pro Max对比起来是这样的:不卖关子,这么个新鲜角色,名叫智跃Agent一体机。很有意思的一点是,这是市面上首个专门面向CEO打造的软硬一体私有化Agent,目标用户非常明确。
近年来,以人形机器人、自动驾驶为代表的具身人工智能(Embodied Artificial Intelligence, EAI)正以前所未有的速度发展,从数字世界大步迈向物理现实。然而,当一次错误的风险不再是屏幕上的一行乱码,而是可能导致真实世界中的物理伤害时,一个紧迫的问题摆在了我们面前: 如何确保这些日益强大的具身智能体是安全且值得信赖的?
即梦AI最新上线的Agent模式,只需要说出你的需求,它就能自动帮你写提示词,新上手的小白也能轻松玩转。比Nano banana更懂中文场景,文生图和图像编辑还比Nano banana强!
本周,我们关注 Agent 与工业结合正在发生的变化,我们邀请研发时序大模型 Geegobyte-g1 以及工业智能体平台「河谷」的初创企业极峰科技的创始人王筱圃,和我们聊一聊什么是时序大模型,和大语言模型的区别和具体的案例,他们如何训练一个 Agent 并把它卖给企业投入到生产流程中。希望能对大家了解 AI Agent 如何应用于工业生产有所帮助。