清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。
扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
上世纪 50 年代信息论和 DNA 双螺旋的发现,点亮了生命科学与数字互联网这两个最关键的科技树;今天 AI for Science 开始将这两股洪流汇聚并指数级加速。 大模型对生物系统这样复杂、非线性的系统有着前所未有的理解和生成能力,有望成为加速科学发现的关键引擎。
据知情人士透露,代表亚马逊、亚马逊、微软和Meta的游说团体INCOMPAS,正敦促参议院通过一项为期10年的禁令,禁止各州推出自己的人工智能立法。这场游说活动的核心人物、INCOMPAS首席执行官、前国会议员Chip Pickering正代表他所在的科技行业协会的成员,倡导这项提案。
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?
GSPN是一种新型视觉注意力机制,通过线性扫描和稳定性-上下文条件,高效处理图像空间结构,显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接,并利用稳定性-上下文条件确保稳定的长距离上下文传播,将计算复杂度显著降低至√N量级。
随着大模型应用场景的不断拓展,其在处理长期对话时逐渐暴露出的记忆局限性日益凸显,主要表现为固定长度上下文窗口导致的“健忘”问题。
还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM
当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。
大模型学习不仅要正确知识,还需要一个“错题本”?