
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。
如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。
Vevo Therapeutics(现为Tahoe)与Arc研究所,两家分别在生物技术商业转化和非营利性基础研究领域领先的机构,于2025年2月联合发布了一项里程碑式的成果:全球最大的单细胞药物扰动数据集Tahoe-100M。
Kimi K2 发布了 2 天,我也测了足足 2 天。如果仔细观察 Kimi 这次的官方发布稿,不难发现 K2 强调的重点:Agent 与 Coding 能力。
首个能跨领域精准预测人类认知的基础模型诞生!
一年前,你想让AI画出“一只穿着复古皮衣、站在东京街头、日落光线打在墨镜上的猫”,得试个五六次,画出来要么穿错衣服,要么猫的动作奇特,要么背景得靠开盲盒抽卡。今天,在一众主流图像模型上,这句提示词几乎能一次命中。
AI也能选择性失忆?Meta联合NYU发布新作,轻松操控缩放Transformer注意头,让大模型「忘掉狗会叫」。记忆可删、偏见可调、安全可破,掀开大模型「可编辑时代」,安全边界何去何从。
2025年,某头部AI情感陪伴应用的增长预算,砍了近90%。
现在人工智能领域面临的最大挑战是广义的具身智能,即使你并不特别关心大脑本身……