AI资讯新闻榜单内容搜索-视觉模型

零样本&少样本横扫12个工业医疗数据集：西门子×腾讯优图新研究精准定位缺陷，检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟，但当前普遍使用的传统模型在训练时对数据要求较高，需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报

8145 点击 2026-01-19 15:13

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University（MMLab）与 SenseTime Research，提出 Prism Hypothesis（棱镜假说）与 Unified Autoencoding（UAE），尝试用 “频率谱” 的统一视角，把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报

10089 点击 2026-01-15 09:20

刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测

为了抢回头把交椅，OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后，OpenAI 红色警报计划中又一记重拳。

来自主题: AI资讯

8578 点击 2025-12-17 08:42

24岁博士生造出空间AI大师G²VLM，让机器人眼明手快

近日，24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型，它是一位拥有空间超能力的视觉语言小能手，不仅能从普通的平面图片中精准地重建出三维世界，还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报

5692 点击 2025-12-15 14:49

美团AI转向，前字节视觉模型AI平台负责人潘欣加入｜智能涌现独家

外卖大战压力之下，美团正在打一场AI基建的硬仗。文｜邓咏仪编辑｜苏建勋杨轩《智能涌现》从多个信息源独家获悉，前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣，近期已经加入美团。潘欣曾任谷

来自主题: AI资讯

8689 点击 2025-12-10 16:13

视觉推理模型Top1易主了，智谱GLM-4.6V开源

这一次，AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后，我们发现写图文并茂的公众号推文，还只是GLM-4.6V能力的一隅。

来自主题: AI资讯

8624 点击 2025-12-09 00:50

NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！

REG 是一种简单而有效的方法，仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型（如 DINOv2）的 class token 与 latent 在空间维度拼接后共同加噪训练，从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上，

来自主题: AI技术研报

6997 点击 2025-11-29 13:46