
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
随着 OpenAI 推出 GPT-4o 的图像生成功能,AI 生图能力被拉上了一个新的高度,但你有没有想过,这光鲜亮丽的背后也隐藏着严峻的安全挑战:如何区分生成图像和真实图像?
提起AI游戏,大多普通玩家所能想到的,可能是预设好的可对话“Chatbot”AI NPC、在对抗游戏中“更聪明”的人机队友或敌人,又或是让AI充当类似GM的职能,引导玩家推进游戏流程。
过去一年,腾讯、阿里、字节等互联网大厂将AI纳入核心战略,引发至少12次组织重组,包括AI部门模式创新(三种架构)、业务整合与人事变动;创始人如马云、张一鸣回归指导AI;字节高管创业频繁,腾讯加码招聘;AI投入巨资但盈利模式不确定,大厂需平衡增长与挑战。
前两天,微信开放了自己的微信支付MCP。补上了智能体链路的最后一块拼图。虽然现在还只能在腾讯自己家的腾讯元器上用,但,影响也还是足够的大。
辣个前端时间爆火的腾讯云代码助手-CodeBuddy。最近出IDE了,还是叫CodeBuddy(不是插件),跟之前的Trae一样,目前先发布的是国际版,codebuddy.ai。现在除了海外的以Cursor为代表的AI IDE之外,国内大厂(字节、阿里、百度、腾讯)纷纷都发布了自己的AI IDE产品。
多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。
就在今天,腾讯元器(智能体平台)悄悄上线了微信支付MCP
6 月 27 日,腾讯混元宣布开源首个混合推理 MoE 模型 Hunyuan-A13B,总参数 80B,激活参数仅 13B,效果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。模型已经在 Github 和 Huggingface 等开源社区上线,同时模型 API 也在腾讯云官网正式上线,支持快速接入部署。
总是“死记硬背”“知其然不知其所以然”?