AI资讯新闻榜单内容搜索-谢赛宁

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

来自主题: AI技术研报

7064 点击 2025-04-07 15:09

扩展无语言的视觉表征学习。

来自主题: AI技术研报

6032 点击 2025-04-03 15:06

近年来，多模态大模型（MLLM）在视觉理解领域突飞猛进，但如何让大语言模型（LLM）低成本掌握视觉生成能力仍是业界难题！

来自主题: AI资讯

5266 点击 2025-02-17 09:37

对于 LLM，推理时 scaling 是有效的！这一点已经被近期的许多推理大模型证明：o1、o3、DeepSeek R1、QwQ、Step Reasoner mini……

来自主题: AI技术研报

7444 点击 2025-01-18 14:39

划时代的突破来了！来自NYU、MIT和谷歌的顶尖研究团队联手，为扩散模型开辟了一个全新的方向——测试时计算Scaling Law。其中，谢赛宁高徒为共同一作。

来自主题: AI技术研报

7599 点击 2025-01-18 14:29

李飞飞、谢赛宁团队又有重磅发现了：多模态LLM能够记住和回忆空间，甚至内部已经形成了局部世界模型，表现了空间意识！李飞飞兴奋表示，在2025年，空间智能的界限很可能会再次突破。

来自主题: AI技术研报

7864 点击 2024-12-23 16:22

我们生活在一个感官丰富的 3D 世界中，视觉信号围绕着我们，让我们能够感知、理解和与之互动。

来自主题: AI技术研报

6520 点击 2024-12-23 15:10

如今，多模态大模型（MLLM）已经在视觉理解领域取得了长足进步，其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势，其有效性表明大语言模型（LLM）拥有了大量固有的视觉知识，使得它们能够在指令调整过程中有效地学习和发展视觉理解。

来自主题: AI技术研报

7019 点击 2024-12-21 11:12

在NLP领域，研究者们已经充分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研究就拿出了非常有力的证据：Representation matters！

来自主题: AI技术研报

3465 点击 2024-10-23 13:37

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」

来自主题: AI技术研报

3619 点击 2024-10-14 15:22