AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。

来自主题: AI技术研报
6970 点击    2025-06-04 09:28
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报
5866 点击    2025-06-03 14:44
Z Product|10人以下团队+DePIN模式,DeepAI决定让AI“民主化”到每一个人

Z Product|10人以下团队+DePIN模式,DeepAI决定让AI“民主化”到每一个人

Z Product|10人以下团队+DePIN模式,DeepAI决定让AI“民主化”到每一个人

生成式AGI已经颠覆了人们的生活,但AI工具并没有随着用户使用场景的融合而整合。各个赛道的头部玩家依靠独家的数据库发展模型,现有算力和数据量难以支撑多模态和跨业务领域拓展,急需形成用户粘性的市场竞争也使得AI的生成稳定性被优先考虑。

来自主题: AI资讯
7857 点击    2025-06-03 10:19
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报
7209 点击    2025-06-02 15:24
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。

来自主题: AI技术研报
6884 点击    2025-06-01 17:58
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报
8602 点击    2025-05-31 14:37
字节开源了一个了不得的模型!

字节开源了一个了不得的模型!

字节开源了一个了不得的模型!

字节跳动开源了一个口碑还不错的模型——BAGEL (ByteDance Agnostic Generation and Empathetic Language model), 一个统一多模态基础模型。啥叫“统一”?一个模型就能同时理解和生成文本、图像、视频!

来自主题: AI资讯
5847 点击    2025-05-31 13:45
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6542 点击    2025-05-30 17:30
LLM省钱大测评!48块GH200,首个百亿级参数量实证

LLM省钱大测评!48块GH200,首个百亿级参数量实证

LLM省钱大测评!48块GH200,首个百亿级参数量实证

EfficientLLM项目聚焦LLM效率,提出三轴分类法和六大指标,实验包揽全架构、多模态、微调技术,可为研究人员提供效率与性能平衡的参考。

来自主题: AI技术研报
6919 点击    2025-05-29 17:16