AI资讯新闻榜单内容搜索-多模态模型

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

当前机器人领域，基础模型主要基于「视觉-语言预训练」，这样可将现有大型多模态模型的语义泛化优势迁移过来。但是，机器人的智能确实能随着算力和数据的增加而持续提升吗？我们能预测这种提升吗？

来自主题: AI技术研报

6820 点击 2025-11-05 16:42

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中，传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报

9149 点击 2025-11-04 10:42

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8125 点击 2025-11-03 09:50

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7173 点击 2025-10-29 09:53

相机参数秒变图片！新模型打通理解生成壁垒，支持任意视角图像创作

能看懂相机参数，并且生成相应视角图片的多模态模型来了。

来自主题: AI技术研报

4255 点击 2025-10-28 13:57

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？

来自主题: AI技术研报

7053 点击 2025-10-25 14:26

MIT成果登Nature正刊：90天，「AI科学家」完成3500次电化学测试

美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文，展示了一种多模态机器人平台CRESt（Copilot for Real-world Experimental Scientists），通过将多模态模型（融合文本知识、化学成分以及微观结构信息）驱动的材料设计与高通量自动化实验相结合，大幅提升催化剂的研发速度和质量。

来自主题: AI技术研报

8141 点击 2025-10-20 15:36