AI资讯新闻榜单内容搜索-模型

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

因为 V3 版本开源模型的发布，DeepSeek 又火了一把，而且这一次，是外网刷屏。训练成本估计只有 Llama 3.1 405B 模型的 11 分之一，后者的效果还不如它。

来自主题: AI资讯

8636 点击 2025-01-09 09:31

昨天，英伟达官宣了首个「世界基础模型」Cosmos。从此，物理AI数据不够的问题将有望解决！而就在刚刚，75页技术报告火热出炉，GitHub项目更是冲破了2k星。

来自主题: AI技术研报

9804 点击 2025-01-08 15:27

大厂为什么追求大模型？昨天有提到，为什么要研究语言模型。

来自主题: AI资讯

7049 点击 2025-01-08 14:50

Falcon 方法是一种增强半自回归投机解码框架，旨在增强 draft model 的并行性和输出质量，以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比，在多种数据集上获得了很好的结果，并已应用到翼支付多个实际业务中。

来自主题: AI技术研报

8348 点击 2025-01-08 14:38

本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报

8994 点击 2025-01-08 14:34

大模型引发的科技和创业热潮，已经迈入了第三年。

来自主题: AI资讯

8157 点击 2025-01-08 11:50

1/10训练数据激发高级推理能力！近日，来自清华的研究者提出了PRIME，通过隐式奖励来进行过程强化，提高了语言模型的推理能力，超越了SFT以及蒸馏等方法。

来自主题: AI技术研报

4452 点击 2025-01-08 11:12

就在刚刚，RTX 5090震撼发布，国行版定价16499元！同时震撼亮相的，还有全球最小AI超算Project Digits，在办公桌上就能跑出数据中心级算力！这一刻老黄摆出别致pose，吸引了全球目光。

来自主题: AI资讯

10105 点击 2025-01-08 10:28

现在，大模型可以帮你梳理新闻时间线了，以后吃瓜就更方便了！ AI Agent的风，咱们赛博乐子人也得吹吹。这就是来自阿里巴巴通义实验室与上海交通大学的新研究，他们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS。

来自主题: AI资讯

9510 点击 2025-01-08 10:18

陈丹琦团队又带着他们的降本大法来了—— 数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。

来自主题: AI资讯

8693 点击 2025-01-08 09:56