AI资讯新闻榜单内容搜索-多模态

加速AI和机器人融入生活空间，「一目科技」完成数亿元D轮融资

为AI家电和具身智能等多个行业提供多模态感知+AI计算解决方案

来自主题: AI资讯

8446 点击 2025-01-13 14:00

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

在多模态大语言模型（MLLMs）的发展中，视觉 - 语言连接器作为将视觉特征映射到 LLM 语言空间的关键组件，起到了桥梁作用。

来自主题: AI技术研报

7718 点击 2025-01-12 10:22

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

终于，5202年了，手机助手也乘着AI的快车，变得越来越好用了！不仅内置了多模态大模型“大脑”，拥有超强的思考和对话能力，还长出了“眼睛”，可以看到屏幕内外的世界。

来自主题: AI资讯

7864 点击 2025-01-09 14:44

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

Aria-UI通过纯视觉理解，实现了GUI指令的精准定位，无需依赖后台数据，简化了部署流程；在AndroidWorld和OSWorld等权威基准测试中表现出色，分别获得第一名和第三名，展示了强大的跨平台自动化能力。

来自主题: AI技术研报

10025 点击 2025-01-09 10:54

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

1 月 18 日，北京，聊聊 2025 如何加入技术开发？ AI 科技评论消息称，前微软亚洲研究院视觉计算组首席研究员胡瀚，不久前加入腾讯，接替已离职的前腾讯混元大模型技术负责人之一的刘威，负责多模态大模型的研发工作。

来自主题: AI资讯

8931 点击 2025-01-09 10:22

AAAI 2025 | 多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

计算机辅助设计（CAD）已经成为许多行业设计、绘图和建模的标准方法。如今，几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。

来自主题: AI技术研报

3026 点击 2025-01-03 16:07

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。

来自主题: AI资讯

7285 点击 2025-01-02 16:31

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

近年来，视觉语言基础模型（Vision Language Models, VLMs）大放异彩，在多模态理解和推理上展现出了超强能力。现在，更加酷炫的视觉语言动作模型（Vision-Language-Action Models, VLAs）来了！通过为 VLMs 加上动作预测模块，VLAs 不仅能 “看” 懂和 “说” 清，还能 “动” 起来，为机器人领域开启了新玩法！

来自主题: AI技术研报

6892 点击 2025-01-02 16:29

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

GPT-4o仅得分64.5，其余模型均未及格！全面、细粒度评估模型多模态长文档理解能力的评测集来了～名为LongDocURL，集成了长文档理解、数值推理和跨元素定位三个主任务，并包含20个细分子任务。

来自主题: AI技术研报

6431 点击 2025-01-02 14:19

理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型，致力于将视觉理解与生成能力融入同一框架，不仅推动了任务协同与泛化能力的突破，更重要的是，它代表着对类人智能（AGI）的一种深层探索。

来自主题: AI技术研报

8010 点击 2024-12-31 14:19