AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 训练
受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning",该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发,利用结构化的逻辑谜题作为训练场,为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报
5794 点击    2025-02-26 09:56
360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

推理黑马出世,仅以5%参数量撼动AI圈。360、北大团队研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,32B参数,能够匹敌DeepSeek-R1-671B巨兽。

来自主题: AI资讯
5827 点击    2025-02-25 16:33
LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

近日,Meta等机构发表的论文介绍了一种通过进化算法构造高质量数据集的方法:拒绝指令偏好(RIP),得到了Yann LeCun的转赞。相比未经过滤的数据,使用RIP构建的数据集让模型在多个基准测试中都实现了显著提升。

来自主题: AI技术研报
7915 点击    2025-02-25 14:48
LLM自学成才变身「预言家」!预测未来能力大幅提升

LLM自学成才变身「预言家」!预测未来能力大幅提升

LLM自学成才变身「预言家」!预测未来能力大幅提升

还在惊叹预言家的神奇?如今LLM也掌握了预测未来的「超能力」!研究人员通过自我博弈和直接偏好优化,让LLM摆脱人工数据依赖,大幅提升预测能力。

来自主题: AI技术研报
6840 点击    2025-02-25 14:32
一文详解:DeepSeek 第二天开源的 DeepEP

一文详解:DeepSeek 第二天开源的 DeepEP

一文详解:DeepSeek 第二天开源的 DeepEP

DeepSeek 本周正在连续 5 天发布开源项目,今天是第 2 天,带来了专为混合专家模型(MoE)和专家并行(EP)打造的高效通信库 — DeepEP。就在半小时前,官方对此进行了发布,以下是由赛博禅心带来的详解。

来自主题: AI技术研报
7139 点击    2025-02-25 11:18
不用GAN不用扩散,无需训练解锁AI生图新境界!判别模型成神秘第三极

不用GAN不用扩散,无需训练解锁AI生图新境界!判别模型成神秘第三极

不用GAN不用扩散,无需训练解锁AI生图新境界!判别模型成神秘第三极

你能想象判别模型也能成为强大的图像合成高手吗?「直接上升合成」(DAS)做到了!它突破传统认知,借助多分辨率优化等创新技术,在图像生成的多个关键任务中表现出色。

来自主题: AI技术研报
4691 点击    2025-02-24 16:37
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。

来自主题: AI技术研报
7493 点击    2025-02-24 14:40