AI资讯新闻榜单内容搜索-预训练

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

AI如何理解物理世界？视频联合嵌入预测架构V-JEPA带来新突破，无需硬编码核心知识，在自监督预训练中展现出对直观物理的理解，超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报

11070 点击 2025-03-02 15:47

微软原WizardLM团队：代码大模型WarriorCoder，性能新SOTA

近年来，大型语言模型（LLMs）在代码相关的任务上展现了惊人的表现，各种代码大模型层出不穷。这些成功的案例表明，在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。

来自主题: AI技术研报

10209 点击 2025-03-02 14:13

DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU?

DeepSeek和xAI相继用R1和Grok-3证明：预训练Scaling Law不是OpenAI的护城河。将来95%的算力将用在推理，而不是现在的训练和推理各50%。OpenAI前途不明，生死难料！

来自主题: AI资讯

7699 点击 2025-03-01 22:37

ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满

在 Scaling Law 背景下，预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉，缺乏全面和明确的指导方针。在此背景下，该研究提出了一个数据管理器 DataMan，其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。

来自主题: AI技术研报

9504 点击 2025-02-28 14:04

月之暗面Kimi的技术一点都不落后。

2 月 18 日，月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts（MoE）的理念，提升了处理长文本的效率，它的上下文长度可扩展至 10M。并且，MoBA 支持在全注意力和稀疏注意力之间无缝切换，使得与现有的预训练模型兼容性大幅提升。

来自主题: AI技术研报

9452 点击 2025-02-23 11:38