AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!

360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!

360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!

现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。

来自主题: AI技术研报
6105 点击    2025-03-03 10:06
LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

AI如何理解物理世界?视频联合嵌入预测架构V-JEPA带来新突破,无需硬编码核心知识,在自监督预训练中展现出对直观物理的理解,超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报
9360 点击    2025-03-02 15:47
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。

来自主题: AI技术研报
8410 点击    2025-03-02 15:14
微软原WizardLM团队:代码大模型WarriorCoder,性能新SOTA

微软原WizardLM团队:代码大模型WarriorCoder,性能新SOTA

微软原WizardLM团队:代码大模型WarriorCoder,性能新SOTA

近年来,大型语言模型(LLMs)在代码相关的任务上展现了惊人的表现,各种代码大模型层出不穷。这些成功的案例表明,在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。

来自主题: AI技术研报
8614 点击    2025-03-02 14:13
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报
6121 点击    2025-03-02 13:22
DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?

DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?

DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?

DeepSeek和xAI相继用R1和Grok-3证明:预训练Scaling Law不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训练和推理各50%。OpenAI前途不明,生死难料!

来自主题: AI资讯
6137 点击    2025-03-01 22:37
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是,面对「创造力」,我们很难构建一个合适且自动化的评估流程。

来自主题: AI技术研报
6192 点击    2025-03-01 22:13
模型越复杂,离真理越远?我们还需要奥卡姆剃刀吗?

模型越复杂,离真理越远?我们还需要奥卡姆剃刀吗?

模型越复杂,离真理越远?我们还需要奥卡姆剃刀吗?

当百亿千亿参数的大模型霸占着科技头条,“若无必要,勿增实体”这把古老“剃刀”是否依旧闪耀?复杂性与简洁性真的是对立的吗?本文将回溯历史长河,探寻一个古老哲学原则与现代科技之间的微妙关联。在这个过程中,我们或许能够发现,复杂与简洁之间隐藏着怎样的辩证关系。

来自主题: AI技术研报
8171 点击    2025-03-01 15:28