AI资讯新闻榜单内容搜索-微调

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 微调
微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报
6037 点击    2025-03-10 22:22
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报
7100 点击    2025-03-09 13:32
全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!

来自主题: AI技术研报
6832 点击    2025-03-05 20:42
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!

来自主题: AI技术研报
6112 点击    2025-03-04 20:09
全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

基于内置思维链的思考方法为解决多轮会话中存在的问题提供了研究方向。按照思考方法收集训练数据集,通过有监督学习微调大语言模型;训练一个一致性奖励模型,并将该模型用作奖励函数,以使用强化学习来微调大语言模型。结果大语言模型的推理能力和计划能力,以及执行计划的能力得到了增强。

来自主题: AI资讯
5968 点击    2025-03-04 19:46
重点收藏!三家众擎机器人核心供应链企业!附辟谣信息

重点收藏!三家众擎机器人核心供应链企业!附辟谣信息

重点收藏!三家众擎机器人核心供应链企业!附辟谣信息

据众擎机器人介绍,众擎机器人SE01自主研发的“动态重心补偿算法”以每秒1000次的姿态微调对抗前倾失控风险;仿生肌肉驱动系统使关节瞬时扭矩高达330N·m;而毫米波雷达与视觉融合感知系统则将落地误差控制在±2cm内。

来自主题: AI资讯
6897 点击    2025-03-04 10:17
周末AI大瓜,围绕DeepSeek大消息不断!潞晨科技尤洋发文致歉

周末AI大瓜,围绕DeepSeek大消息不断!潞晨科技尤洋发文致歉

周末AI大瓜,围绕DeepSeek大消息不断!潞晨科技尤洋发文致歉

3月1日,潞晨科技官微发布了两则消息。先是宣布:“尊敬的用户,潞晨云将在一周后停止提供DeepSeek API服务,请尽快用完您的余额。如果没用完,我们全额退款。”后又发布消息:“感谢网友的热心提醒,Colossal-AI此前发布对DeepSeek-R1(671B)模型的LoRA微调,在参数加载过程中因参数名称不匹配的Bug导致Loss异常,已在GitHub线上修复。”

来自主题: AI资讯
8056 点击    2025-03-02 09:34