AI资讯新闻榜单内容搜索-微调

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报

8275 点击 2025-03-09 13:32

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

8207 点击 2025-03-05 20:42

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

5274 点击 2025-03-05 13:39

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

7644 点击 2025-03-04 20:09

全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法

基于内置思维链的思考方法为解决多轮会话中存在的问题提供了研究方向。按照思考方法收集训练数据集，通过有监督学习微调大语言模型；训练一个一致性奖励模型，并将该模型用作奖励函数，以使用强化学习来微调大语言模型。结果大语言模型的推理能力和计划能力，以及执行计划的能力得到了增强。

来自主题: AI资讯

7139 点击 2025-03-04 19:46

性能无损，模型隐私保护效果提升50%!蚂蚁数科创新跨域微调框架| AAAI 2025 Oral

大模型的快速及持续发展，离不开对模型所有权及数据隐私的保护。

来自主题: AI技术研报

9756 点击 2025-03-04 10:38

重点收藏！三家众擎机器人核心供应链企业！附辟谣信息

据众擎机器人介绍，众擎机器人SE01自主研发的“动态重心补偿算法”以每秒1000次的姿态微调对抗前倾失控风险；仿生肌肉驱动系统使关节瞬时扭矩高达330N·m；而毫米波雷达与视觉融合感知系统则将落地误差控制在±2cm内。

来自主题: AI资讯

10287 点击 2025-03-04 10:17

周末AI大瓜，围绕DeepSeek大消息不断！潞晨科技尤洋发文致歉

3月1日，潞晨科技官微发布了两则消息。先是宣布：“尊敬的用户，潞晨云将在一周后停止提供DeepSeek API服务，请尽快用完您的余额。如果没用完，我们全额退款。”后又发布消息：“感谢网友的热心提醒，Colossal-AI此前发布对DeepSeek-R1（671B）模型的LoRA微调，在参数加载过程中因参数名称不匹配的Bug导致Loss异常，已在GitHub线上修复。”

来自主题: AI资讯

9752 点击 2025-03-02 09:34

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3% | 邱锡鹏团队联合出品

DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！

来自主题: AI技术研报

7273 点击 2025-02-24 16:53

扩散模型新突破！无需微调，就能高效稳定移除目标物体

最近，扩散模型在生成模型领域异军突起，凭借其独特的生成机制在图像生成方面大放异彩，尤其在处理高维复杂数据时优势明显。然而，尽管扩散模型在图像生成任务中表现优异，但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后，可能会留下残影或伪影，难以实现与背景的自然融合。

来自主题: AI技术研报

7743 点击 2025-02-24 13:20