
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
2023年感恩节,OpenAI创始人奥特曼被炒鱿鱼,五天五夜的科技圈大戏席卷全网。亚马逊斥资4000万美元,将这段「AI圈权游」搬上大银幕,Andrew Garfield化身奥特曼,带你重温那场惊心动魄的逆转剧情!
反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。
首个能跨领域精准预测人类认知的基础模型诞生!
AI也要氛围阅读,Karpathy提出PDF论文已不适合AI时代,呼吁以Git、Markdown等结构化格式重塑科研写作。他认为未来99%的注意力将来自AI,科研成果应为AI优化。
你可能没留意到,如火如荼的具身智能融资大潮里,棋局热闹,棋子如云,而低调又凶猛的棋手,却不显山不露水。美团王兴,就是这场激战里真正的(骑手)棋手。
AI也能选择性失忆?Meta联合NYU发布新作,轻松操控缩放Transformer注意头,让大模型「忘掉狗会叫」。记忆可删、偏见可调、安全可破,掀开大模型「可编辑时代」,安全边界何去何从。
昨天Grok4发布完以后,我随手刷了一下X。
现在人工智能领域面临的最大挑战是广义的具身智能,即使你并不特别关心大脑本身……
美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文,首次公开评价中国大模型“月之暗面”Kimi K2。他表示,Kimi K2 在内部测试中表现良好,Perplexity 正在考虑在其基础上进行后训练。