AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示,Gemma 3n 代表了设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯
8722 点击    2025-06-27 09:00
多模态内容生成的机会,为什么属于中国公司?

多模态内容生成的机会,为什么属于中国公司?

多模态内容生成的机会,为什么属于中国公司?

2025 年多模态技术快速发展,中国创业团队在内容生成领域正在形成领先优势。

来自主题: AI资讯
6116 点击    2025-06-25 17:01
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。

来自主题: AI技术研报
6513 点击    2025-06-22 16:39
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。

来自主题: AI技术研报
6361 点击    2025-06-21 16:56
20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

来自主题: AI技术研报
7833 点击    2025-06-19 11:03
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。

来自主题: AI技术研报
8816 点击    2025-06-18 15:35