AI资讯新闻榜单内容搜索-模型

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报

8228 点击 2025-01-18 09:57

一文读懂数据标注及最佳实践

来自主题: AI资讯

11111 点击 2025-01-17 15:44

半年融资过亿，FEELING AI瞄准生成式3D动态内容交互产品

以自研的“1+N”多模态模型系统，打造3D动态内容为核心的交互产品。

来自主题: AI资讯

7467 点击 2025-01-17 15:27

国产3D生成大模型火爆外网！歪果仁年都不过了，都在测这个

“3D大模型终于可以生成锐利的边角了！”

来自主题: AI资讯

5217 点击 2025-01-17 14:46

腾讯AI助手「元宝」团队调整至CSIG，腾讯会议负责人带队

AI产品与基座模型独立发展，已经成为主流趋势。

来自主题: AI资讯

7348 点击 2025-01-17 12:03

今天，智谱用全家桶升级回击美国制裁，我想点个赞

智谱，昨天被美国商务部列入了实体清单，火了。

来自主题: AI资讯

8071 点击 2025-01-17 11:49

大模型是色盲吗？

先说结论：多数模型，是色盲

来自主题: AI资讯

7627 点击 2025-01-17 11:33

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报

9629 点击 2025-01-17 11:14

大模型量化训练极限在哪？腾讯混元提出低比特浮点数训练Scaling Laws

大模型低精度训练和推理是大模型领域中的重要研究方向，旨在通过降低模型精度来减少计算和存储成本，同时保持模型的性能。因为在大模型研发成本降低上的巨大价值而受到行业广泛关注。

来自主题: AI技术研报

5980 点击 2025-01-17 11:07

495篇参考文献！北交大清华等高校发布多语言大模型综述

虽然大模型取得突破性进展，但其在多语言场景下仍具有局限性，存在很大的改善空间。

来自主题: AI技术研报

6943 点击 2025-01-17 10:58