AI资讯新闻榜单内容搜索-模型训练

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

SANA 1.5是一种高效可扩展的线性扩散Transformer，针对文本生成图像任务进行了三项创新：高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本，还在生成质量上达到了最先进的水平。

来自主题: AI技术研报

11434 点击 2025-02-07 16:05

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。

来自主题: AI技术研报

7386 点击 2025-02-07 15:43

2025年，软件工程要彻底变天了。先有奥特曼预言，后有微软下场All in智能体。刚刚，首个自主SWE智能体面世，不仅会主动改bug修复错误，还能自主提交PR评论。

来自主题: AI技术研报

7383 点击 2025-02-07 15:30

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康，指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱：ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报

5228 点击 2025-02-06 15:30

今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

来自主题: AI技术研报

6219 点击 2025-02-05 13:46

关注NLP领域的人们，一定好奇「语言模型能做什么？」「什么是o1？」「为什么思维链有效？」

来自主题: AI技术研报

7210 点击 2025-02-04 20:15

这两天，国外网友纷纷发现o3-mini-high在思考过程中居然会经常出现中文！难道真如网友猜测，是借鉴DeepSeek了？

来自主题: AI资讯

8903 点击 2025-02-04 17:12

在人工智能浪潮席卷全球的今天，大语言模型 (LLM) 正在重塑软件开发流程。近日，字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节，展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报

7500 点击 2025-02-03 18:01

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

9164 点击 2025-02-02 19:07

近日，资深机器学习研究科学家 Cameron R. Wolfe 更新了一篇超长的博客文章，详细介绍了 LLM scaling 的当前状况，并分享了他对 AI 研究未来的看法。

来自主题: AI技术研报

7172 点击 2025-02-02 17:39