AI资讯新闻榜单内容搜索-视觉模型

大模型时代，通用视觉模型将何去何从？

过去几年，通用视觉模型（Vision Generalist Model，简称 VGM）曾是计算机视觉领域的研究热点。

来自主题: AI技术研报

8250 点击 2025-07-02 10:52

刚刚，首个能在机器人上本地运行的具身Gemini来了

今天，Gemini 家族迎来了一个新成员：Gemini Robotics On-Device。这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作（VLA）模型，可以帮助机器人更快、更高效地适应新任务和环境，同时无需持续的互联网连接。

来自主题: AI资讯

7826 点击 2025-06-25 09:02

体验完字节送的迷你AI硬件，后劲有点大...

最近也是好起来了，上周四去杭州参加了字节火山的线下meetup开发者大会。在会议现场亲自体验了他们这次新发布的大模型和产品，整个过程还挺有意思的。视觉模型Doubao-1.5-vision-pro也非常nice

来自主题: AI资讯

8513 点击 2025-04-21 17:40

4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理

当前，所有主流的视觉基础模型（如 SigLIP、DINOv2 等）都仍然在低分辨率（如 384 * 384 分辨率）下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率，这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报

6021 点击 2025-04-17 13:54

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

8265 点击 2025-03-17 14:36

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

6088 点击 2025-02-21 09:54

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

7557 点击 2025-02-02 19:07

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

如今，多模态大模型（MLLM）已经在视觉理解领域取得了长足进步，其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势，其有效性表明大语言模型（LLM）拥有了大量固有的视觉知识，使得它们能够在指令调整过程中有效地学习和发展视觉理解。

来自主题: AI技术研报

7044 点击 2024-12-21 11:12

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯

8643 点击 2024-12-16 10:48

久等了，DeepSeek开源视觉模型DeepSeek-VL2来了

阔别九月，大家期待的 DeepSeek-VL2 终于来了！DeepSeek-MoE 架构配合动态切图，视觉能力再升级。从视觉定位到梗图解析，从 OCR 到故事生成，从 3B、16B 再到 27B，DeepSeek-VL2 正式开源。

来自主题: AI技术研报

10451 点击 2024-12-14 10:17