AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 训练
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍

新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍

新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍

大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。

来自主题: AI资讯
5649 点击    2025-03-17 19:52
北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力

北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力

北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力

长文本任务是当下大模型研究的重点之一。在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。

来自主题: AI技术研报
7099 点击    2025-03-17 16:04
ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法

在深度学习的多个应用场景中,联合优化多个损失项是一个普遍的问题。典型的例子包括物理信息神经网络(Physics-Informed Neural Networks, PINNs)、多任务学习(Multi-Task Learning, MTL)和连续学习(Continual Learning, CL)。然而,不同损失项的梯度方向往往相互冲突,导致优化过程陷入局部最优甚至训练失败。

来自主题: AI技术研报
7878 点击    2025-03-17 14:55
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报
7945 点击    2025-03-17 14:36
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

LMM在人类反馈下表现如何?新加坡国立大学华人团队提出InterFeedback框架,结果显示,最先进的LMM通过人类反馈纠正结果的比例不到50%!

来自主题: AI技术研报
6864 点击    2025-03-17 09:32
TRACE:因果事件建模助力视频理解大模型的时间定位能力

TRACE:因果事件建模助力视频理解大模型的时间定位能力

TRACE:因果事件建模助力视频理解大模型的时间定位能力

下班回家后你正深陷于一部两小时的综艺节目中,渴望找到那些让人捧腹的爆笑片段,却如同大海捞针。或者,在紧张刺激的足球赛中,你渴望捕捉到那决定性的绝杀瞬间,但传统 AI 视频处理技术效率低下,且模型缺乏泛化能力。为解决这些问题,香港中文大学(深圳)唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术,通过因果事件建模为视频理解大模型提供精准的时间定位能力。

来自主题: AI技术研报
7881 点击    2025-03-17 09:19