AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受

MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受

MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受

前沿的 Coding 能力、1M 的上下文窗口,还有原生的多模态

来自主题: AI产品测评
7679 点击    2026-06-02 11:58
MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA (MiniMax Sparse Attention),最高支持 1M 超长上下文。如外界所期待的那样,它也是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。

来自主题: AI资讯
9383 点击    2026-06-01 09:49
Rubrics综述:Agent时代,如何定义一个「好答案」?

Rubrics综述:Agent时代,如何定义一个「好答案」?

Rubrics综述:Agent时代,如何定义一个「好答案」?

近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和长程 Agent 任务,一个基础问题变得越来越难回答:我们到底应该怎样判断模型输出的质量?

来自主题: AI技术研报
8574 点击    2026-06-01 09:24
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它做一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

来自主题: AI技术研报
8543 点击    2026-05-27 09:52
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

来自主题: AI技术研报
7503 点击    2026-05-26 10:26
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

来自主题: AI资讯
8635 点击    2026-05-25 09:49
教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。

来自主题: AI技术研报
9641 点击    2026-05-22 09:28
HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式,面对多目标时往往陷入交互冗长、错误级联累积的泥沼。

来自主题: AI技术研报
5815 点击    2026-05-20 09:52