AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 多模态
大模型是色盲吗?

大模型是色盲吗?

大模型是色盲吗?

先说结论: 多数模型,是色盲

来自主题: AI资讯
4601 点击    2025-01-17 11:33
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。

来自主题: AI技术研报
8777 点击    2025-01-09 10:54
AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。

来自主题: AI技术研报
1370 点击    2025-01-03 16:07
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。

来自主题: AI技术研报
5684 点击    2025-01-02 14:19
理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。

来自主题: AI技术研报
6563 点击    2024-12-31 14:19
刚刚,多模态推理模型QVQ全新开源

刚刚,多模态推理模型QVQ全新开源

刚刚,多模态推理模型QVQ全新开源

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。

来自主题: AI资讯
8857 点击    2024-12-25 08:47
Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福大学联合团队全面研究多模态大模型(LMM)中驱动视频理解的机制,扩展了视频多模态大模型的设计空间,提出新的训练调度和数据混合方法,并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。

来自主题: AI技术研报
6523 点击    2024-12-20 15:59
28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

面对AI圈疯传的「数据如化石燃料一般正在枯竭」,我们该如何从海量数据中掘金?AI炼出的数据飞轮2.0,或许就是答案。

来自主题: AI资讯
4638 点击    2024-12-19 13:10