AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

12月伊始,可灵AI接连放出大招。全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能……5天内5次“上新”,直接让生成式AI领域的竞争“卷”出新高度。

来自主题: AI资讯
6741 点击    2025-12-10 14:32
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。

来自主题: AI技术研报
9246 点击    2025-12-09 14:38
亚马逊Agent克服遗忘的“秘诀”,被中国团队掌握,让大模型遗忘率趋近于0

亚马逊Agent克服遗忘的“秘诀”,被中国团队掌握,让大模型遗忘率趋近于0

亚马逊Agent克服遗忘的“秘诀”,被中国团队掌握,让大模型遗忘率趋近于0

国内记忆框架首开源,企业实战已上线运行。在海外巨头已经将“记忆系统”提升到基础设施层的同时,红熊AI便是其中之一。公司成立于2024年,围绕多模态大模型与记忆科学开展研发,并将这些能力用于为企业提供智能客服、营销自动化与AI智能体服务。

来自主题: AI资讯
6829 点击    2025-12-08 09:49
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报
8019 点击    2025-12-05 14:46
迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

来自主题: AI技术研报
6015 点击    2025-12-03 09:54
架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型(如 Emu3)与单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报
8114 点击    2025-12-02 15:17
独家丨10个月估值冲上13.2亿美元,前商汤核心人物刘宇的多模态AI创业公司估值狂飙,红杉与IDG集体加注

独家丨10个月估值冲上13.2亿美元,前商汤核心人物刘宇的多模态AI创业公司估值狂飙,红杉与IDG集体加注

独家丨10个月估值冲上13.2亿美元,前商汤核心人物刘宇的多模态AI创业公司估值狂飙,红杉与IDG集体加注

2025 年 1 月创立了一家专注“实时交互多模态内容”的 AI 初创企业;同年 2 月完成种子轮,由红杉中国和 IDG 资本联合领投;8 月 Pre-A 估值突破 4 亿美元;11 月 A 轮估值 突破13.2亿美元。换算一下,这家才刚满一岁的“tiny AI venture”,如今的身价已经站进全球视频模型创业公司第一梯队

来自主题: AI资讯
7999 点击    2025-12-02 11:00
国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

智东西11月28日报道,刚刚,快手开源其新一代旗舰多模态大模型Keye-VL-671B-A37B。该模型基于DeepSeek-V3-Terminus打造,拥有6710亿个参数,在保持基础模型通用能力的前提下,对视觉感知、跨模态对齐与复杂推理链路进行了升级,实现了较强的多模态理解和复杂推理能力。

来自主题: AI技术研报
8465 点击    2025-11-29 20:12
专访Luma AI首席科学家:视频生成模型的游戏规则改变了

专访Luma AI首席科学家:视频生成模型的游戏规则改变了

专访Luma AI首席科学家:视频生成模型的游戏规则改变了

To C玩梗是Sora的热闹,用多模态大一统模型服务专业客户,才是AI视频生成的正经生意。

来自主题: AI资讯
5588 点击    2025-11-28 10:03