AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
面壁“小钢炮”登上 Nature 子刊,8B 多模态综合性能超越 GPT-4V、Gemini Pro

面壁“小钢炮”登上 Nature 子刊,8B 多模态综合性能超越 GPT-4V、Gemini Pro

面壁“小钢炮”登上 Nature 子刊,8B 多模态综合性能超越 GPT-4V、Gemini Pro

7 月 1 日,国际顶级学术期刊《Nature》旗下子刊《Nature Communications》正式刊登了来自清华、面壁等研究团队联合研发的高效端侧多模态大模型MiniCPM-V 核心研究成果。

来自主题: AI资讯
8861 点击    2025-07-16 10:18
谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化,打响Google开源反击战。

来自主题: AI技术研报
7004 点击    2025-07-15 15:05
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报
6500 点击    2025-07-15 10:07
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。

来自主题: AI技术研报
6350 点击    2025-07-14 11:12
刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

GPT-4o引爆全球「吉卜力风格」风潮后,其核心成员——华南理工学霸Lu Liu与伯克利博士Allan Jabri——双双跳槽Meta,两人曾在OpenAI主导多模态AI研究,与奥特曼同台展示关键功能。此次挖角再次凸显OpenAI内部动荡后的人才流失危机。

来自主题: AI资讯
7839 点击    2025-07-12 19:19
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:

来自主题: AI技术研报
7149 点击    2025-07-12 11:58
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。

来自主题: AI技术研报
6472 点击    2025-07-11 16:41
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
6747 点击    2025-07-11 16:23
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。

来自主题: AI技术研报
8866 点击    2025-07-11 10:51