AI资讯新闻榜单内容搜索-Ash

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

8512 点击 2025-07-08 12:08

这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash

只需一眨眼的功夫，Mercury 就把任务完成了。「我们非常高兴地推出 Mercury，这是首款专为聊天应用量身定制的商业级扩散 LLM！Mercury 速度超快，效率超高，能够为对话带来实时响应，就像 Mercury Coder 为代码带来的体验一样。」

来自主题: AI技术研报

7232 点击 2025-06-28 13:01

刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统

刚刚，Gemini 系列模型迎来了一波更新：Gemini 2.5 Pro 稳定版发布且已全面可用，其与 6 月 5 日的预览版相比无变化。新推出了 Gemini 2.5 Flash-Lite 并已开启预览。

来自主题: AI资讯

9247 点击 2025-06-18 09:50

让整个X玩疯了的Veo3，到底怎么样？【附测试提示词】

大家好，我是袋鼠帝还记得前两天Google IO大会上他们发布的最新视频模型Veo3吗它可以根据提示自动添加环境音效、背景噪声、音乐和对话，并与画面完美同步而且生成的视频相当炸裂，已经让我有点分不清虚幻与现实了比如这位推特大神（Hashem Al-Ghaili）用Veo3制作的视频，相当🐂🍺

来自主题: AI资讯

6545 点击 2025-05-26 10:52

帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。

来自主题: AI技术研报

7941 点击 2025-05-23 10:18

叶子豪、陈天奇等人开源项目FlashInfer入选，MLSys2025最佳论文奖公布

今年的两篇最佳论文一作均为华人。

来自主题: AI技术研报

9960 点击 2025-05-14 14:40

谷歌Gemini火力全开！实测：原生图像生成新升级确实强

谷歌Gemini原生图像生成功能又双叒升级了！

来自主题: AI产品测评

9725 点击 2025-05-09 20:49

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读：

来自主题: AI技术研报

10059 点击 2025-04-30 08:50

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

大模型之战烽火正酣，谷歌Gemini 2.5 Pro却强势逆袭！Gemini Flash预训练负责人亲自揭秘，深挖Gemini预训练的关键技术，看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

来自主题: AI技术研报

9231 点击 2025-04-29 09:43

Transformer原作打脸DeepSeek观点？一句Wait就能引发反思，RL都不用

Transformer作者Ashish Vaswani团队重磅LLM研究！简单指令：「Wait，」就能有效激发LLM显式反思，表现堪比直接告知模型存在错误。

来自主题: AI技术研报

8170 点击 2025-04-23 10:47