AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。

来自主题: AI技术研报
5710 点击    2025-02-12 11:33
4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

只用4500美元成本,就能成功复现DeepSeek?就在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,15亿参数模型直接吊打o1-preview,震撼业内。

来自主题: AI资讯
7095 点击    2025-02-11 15:26
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

DeepSeek 在海内外搅起的惊涛巨浪,余波仍在汹涌。当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国 AI 军团,这次竟完成了一次反向技术输出,引发了全球范围内复现 DeepSeek 的热潮。

来自主题: AI技术研报
5926 点击    2025-02-11 14:52
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

近日,来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架,让大语言模型首次拥有了真正意义上的 ' 自卫能力 ',能够有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。

来自主题: AI技术研报
4772 点击    2025-02-11 14:48
清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢

清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢

清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢

一篇报道,在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板,却引来OpenAI研究科学家的紧急回应。谁能想到,一篇于2023年发表的LLM论文,竟然在一年半之后又「火」了。

来自主题: AI技术研报
4954 点击    2025-02-11 14:16
对于那些出来卖的DeepSeek课程,我有些话想说。

对于那些出来卖的DeepSeek课程,我有些话想说。

对于那些出来卖的DeepSeek课程,我有些话想说。

这几天,一些人卖DeepSeek课的事冲上了热搜。什么9.9元的DeepSeek入门课,到几百块钱的deepseek变现特训营,再到线下动辄上万的本地AI训练师。甚至有卖家打出“三天精通AI,月入10万”的口号。闲鱼都快被卖课的屠榜了。

来自主题: AI资讯
7357 点击    2025-02-11 11:14
Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势

DeepSeek火了之后,知名科技主播Lex Fridman,找了两位嘉宾,从 DeepSeek 及其开源模型 V3 和 R1 谈到了 AI 发展的地缘政治竞争,特别是中美在 AI 芯⽚与技术出⼝管制上的博弈。5 个小时的对谈,基于「赛博禅心」的翻译版本,我们精选出了5 万字,基本把 DeepSeek 的创新、目前 AI 的算力问题、AI 训练和蒸馏、以及产品落地等都聊透了。建议收藏后仔细阅读。

来自主题: AI资讯
8158 点击    2025-02-10 23:12
Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM。VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:

来自主题: AI技术研报
8011 点击    2025-02-10 17:25
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报
6984 点击    2025-02-10 17:19
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

「慢思考」(Slow-Thinking),也被称为测试时扩展(Test-Time Scaling),成为提升 LLM 推理能力的新方向。近年来,OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等顶尖推理大模型的发布,进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。

来自主题: AI技术研报
4211 点击    2025-02-10 17:04