AI资讯新闻榜单内容搜索-视觉模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉模型
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟,但当前普遍使用的传统模型在训练时对数据要求较高,需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报
7703 点击    2026-01-19 15:13
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报
9725 点击    2026-01-15 09:20
刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

为了抢回头把交椅,OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后,OpenAI 红色警报计划中又一记重拳。

来自主题: AI资讯
8252 点击    2025-12-17 08:42
24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

近日,24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型,它是一位拥有空间超能力的视觉语言小能手,不仅能从普通的平面图片中精准地重建出三维世界,还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报
5465 点击    2025-12-15 14:49
美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

外卖大战压力之下,美团正在打一场AI基建的硬仗。 文|邓咏仪 编辑|苏建勋 杨轩 《智能涌现》从多个信息源独家获悉,前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣,近期已经加入美团。 潘欣曾任谷

来自主题: AI资讯
8334 点击    2025-12-10 16:13
视觉推理模型Top1易主了,智谱GLM-4.6V开源

视觉推理模型Top1易主了,智谱GLM-4.6V开源

视觉推理模型Top1易主了,智谱GLM-4.6V开源

这一次,AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后,我们发现写图文并茂的公众号推文,还只是GLM-4.6V能力的一隅。

来自主题: AI资讯
8234 点击    2025-12-09 00:50
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维度拼接后共同加噪训练,从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上,

来自主题: AI技术研报
6759 点击    2025-11-29 13:46
爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

Black Forest Labs的开源视觉模型FLUX.2上新,这是一款专为现实创意工作流程打造,绝非演示噱头的生产力工具,与前代FLUX.1相比,实现了从「会画」到「懂你要画什么」的跃升。

来自主题: AI资讯
8550 点击    2025-11-26 14:12
超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报
7375 点击    2025-10-20 12:19
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯
10358 点击    2025-10-15 17:05