AI资讯新闻榜单内容搜索-微调

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

来自主题: AI技术研报

10210 点击 2026-02-10 14:19

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

目前，人形机器人已经能在现实中跳舞、奔跑、甚至完成后空翻。但接下来更关键的问题是：这些系统能否在部署之后持续地进行强化学习 —— 在真实世界的反馈中变得更稳定、更可靠，并在分布不断变化的新环境里持续适应与改进？

来自主题: AI技术研报

11235 点击 2026-02-08 11:56

LLM-in-Sandbox：给大模型一台电脑，激发通用智能体能力

大模型的能力正在被不同的范式逐步解锁：In-Context Learning 展示了模型无需微调即可泛化到新任务；Chain-of-Thought 通过引导模型分步推理来提升复杂问题的求解能力；近期，智能体框架则赋予模型调用工具、多轮交互的能力。

来自主题: AI技术研报

10873 点击 2026-01-30 16:05

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

大模型持续学习，又有新进展！

来自主题: AI技术研报

9863 点击 2026-01-27 16:15

DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

过去两年，大模型的推理能力出现了一次明显的跃迁。在数学、逻辑、多步规划等复杂任务上，推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B，开始稳定拉开与传统指令微调模型的差距。直观来看，它们似乎只是思考得更久了：更长的 Chain-of-Thought、更高的 test-time compute，成为最常被引用的解释。

来自主题: AI技术研报

7256 点击 2026-01-26 15:02

把超算装进背包：ThinkStation PGX重新定义AI开发者的生产力边界

随着AI浪潮的袭来，笔者本人以及团队都及时的调整了业务方向，转型为一名AI开发者和AI产品开发团队，常常需要微调大模型注入业务场景依赖的私域知识，然后再把大模型部署上线进行推理，以支撑业务智能体或智能问答产品的逻辑流程。

来自主题: AI资讯

8390 点击 2026-01-22 11:58

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

假如你是一个致力于将 AI 引入传统行业的工程团队。现在，你有一个问题：训练一个能看懂复杂机械图纸、设备维护手册或金融研报图表的多模态助手。这个助手不仅要能专业陪聊，更要能精准地识别图纸上的零件标注，或者从密密麻麻的财报截图中提取关键数据。

来自主题: AI技术研报

11408 点击 2026-01-13 16:38

一年后，DeepSeek-R1的每token成本降到了原来的1/32

几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容，包括首次公开训练全路径，即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline，以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报

8860 点击 2026-01-10 17:02

“通用大模型微调成为行业模型是伪命题”？医疗AI深度重构，传神语联创始人何恩培：孪生智能体能砍70%线下复诊工作

本文为《2025 年度盘点与趋势洞察》系列内容之一，由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向，通过长期跟踪、与业内专家深度访谈等方式，对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。

来自主题: AI资讯

9853 点击 2026-01-08 15:22

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

8449 点击 2026-01-07 18:35