新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。
大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
“数字人”越来越“活”了。
融资7个月未果,一家AI创企选择卖身。
3月11日的The CEO Speaker series论坛上,Dario Amodei分享了从AI即将编写几乎所有代码,到可能取代50%的工作岗位,再到DeepSeek的崛起和给AI一个「躺平」按钮等等看法。看起来兴奋又忧心忡忡。
AI智能体,确实到了爆发时刻。
Hugging Face的Open R1重磅升级,7B击败Claude 3.7 Sonnet等一众前沿模型。凭借CodeForces-CoTs数据集的10万高质量样本、IOI难题的严苛测试,以及模拟真实竞赛的提交策略优化,这款模型展现了惊艳的性能。
DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。
在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。
为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。