强化学习新发现:无需数学样本,仅游戏训练AI推理大增
强化学习新发现:无需数学样本,仅游戏训练AI推理大增最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。
搜索
最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。
Toloka是一家专注于AI数据标注与模型评估的众包平台,成立于2014年,创始人Olga Megorskaya曾是俄罗斯科技巨头Yandex董事会成员。公司总部位于阿姆斯特丹,之前由AI基础设施公司Nebius Group控股。
NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
在计算机科学领域,有一句英文谚语——「Garbage in, Garbage out」。
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。
不用换模型、不用堆参数,靠 SUGAR 模型性能大增!
Chris Pedregal是Granola的联合创始人兼首席执行官。Granola是一款由AI驱动的智能会议记录工具,正在重新定义知识工作者的工作方式,帮助用户更高效地记录、组织和调用对话中的关键信息。本文是Invest Like the Best主持人Patrick O'Shaughnessy与Chris Pedregal的访谈实录,访谈播客于2025年2月播出。
据彭博社消息,双方正就预装Perplexity 应用及助手到三星新款设备,以及将该初创企业的搜索功能整合至三星网页浏览器进行谈判;两家公司还探讨了将 Perplexity 技术融入三星 Bixby 虚拟助手的方案。