AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报
5911 点击    2026-01-31 12:30
突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

继OpenAI大神姚顺雨之后,腾讯AI再添猛将!95后清华「天骄」庞天宇,正式入职腾讯,出任混元首席研究科学家,负责多模态强化学习。腾讯的大模型「梦之队」版图,正在极速扩张。

来自主题: AI资讯
8954 点击    2026-01-30 22:54
顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代

顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代

顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代

周伯文还详细介绍了上海 AI 实验室近年来开展的前沿探索与实践,包括驱动 “通专融合” 发展的技术架构 ——“智者”SAGE(Synergistic Architecture for Generalizable Experts),其包含基础、融合与进化三个层次,并可双向循环实现全栈进化;支撑 AGI4S 探索的两大基础设施“书生”科学多模态大模型 Intern-S1、“

来自主题: AI资讯
9110 点击    2026-01-30 19:13
大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026

大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026

大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026

为什么让多模态大模型“一步一步思考”(”Let’s think step by step”)来回答视频问题,效果有时甚至还不如让它“直接回答”?

来自主题: AI技术研报
8639 点击    2026-01-30 09:56
北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

近日,北京大学朱毅鑫教授课题组、北京大学毕彦超教授课题组和山西医科大学第一医院王效春团队通过结合 AI 模型和大脑损伤患者的数据,发现语言其实是一副无形的智能眼镜,时刻在悄悄修饰着我们看到的世界。我们可能以为视觉就是眼睛看到什么就是什么,但是这项成果说明了视觉从来都不是孤立的。事实上,当我们在看图片的时候,其实不只是在看,而是在进行被语言调制过的看。

来自主题: AI技术研报
7794 点击    2026-01-27 09:27
关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。

来自主题: AI技术研报
9060 点击    2026-01-26 14:22
混合检索系列之:Milvus 地理几何字段与 R-Tree 索引技术详解

混合检索系列之:Milvus 地理几何字段与 R-Tree 索引技术详解

混合检索系列之:Milvus 地理几何字段与 R-Tree 索引技术详解

在向量数据库的工程实践中,处理多模态数据,特别是结合地理位置(LBS)与非结构化语义数据,一直是一个复杂的架构挑战。

来自主题: AI技术研报
7311 点击    2026-01-26 10:20