AI资讯新闻榜单内容搜索-视觉语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉语言模型
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
5971 点击    2025-07-05 19:00
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报
5939 点击    2025-06-30 10:24
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报
6076 点击    2025-06-28 11:18
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。

来自主题: AI技术研报
6209 点击    2025-06-10 14:45
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。

来自主题: AI技术研报
8229 点击    2025-05-29 16:33
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
9116 点击    2025-05-27 16:53
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

苹果近期开源本地端侧视觉语言模型FastVLM,支持iPhone等设备本地运行,具备快速响应、低延迟和多设备适配特性。该模型依托自研框架MLX和视觉架构FastViT-HD,通过算法优化实现高效推理,或为未来智能眼镜等新硬件铺路,体现苹果将AI深度嵌入系统底层的战略布局。

来自主题: AI资讯
6550 点击    2025-05-16 15:48