AI资讯新闻榜单内容搜索-目标检测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 目标检测
One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深入探索。

来自主题: AI技术研报
7992 点击    2025-05-27 17:33
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!

来自主题: AI技术研报
5965 点击    2025-03-04 20:09
超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

大连理工大学的研究人员提出了一种基于Wasserstein距离的知识蒸馏方法,克服了传统KL散度在Logit和Feature知识迁移中的局限性,在图像分类和目标检测任务上表现更好。

来自主题: AI技术研报
4974 点击    2025-01-10 16:00
超图计算+目标检测,性能新SOTA!清华发布Hyper-YOLO:用超图捕捉高阶视觉关联

超图计算+目标检测,性能新SOTA!清华发布Hyper-YOLO:用超图捕捉高阶视觉关联

超图计算+目标检测,性能新SOTA!清华发布Hyper-YOLO:用超图捕捉高阶视觉关联

Hyper-YOLO是一种新型目标检测方法,通过超图计算增强了特征之间的高阶关联,提升了检测性能,尤其在识别复杂场景下的中小目标时表现更出色。

来自主题: AI技术研报
6600 点击    2024-12-12 14:35
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景,该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM,在无需训练的情况下,取得了良好的开放式 (Open-ended) 目标检测和实例分割结果,论文已被 NeurIPS 2024 录用。

来自主题: AI技术研报
2941 点击    2024-11-16 15:21
超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。

来自主题: AI技术研报
9496 点击    2024-10-29 13:30
自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD,将图像融合和目标检测整合到一个单阶段、端到端框架中,简化训练的同时,提升目标解析性能。 相关论文已入选顶会NeurlPS 2024 Oral,代码、模型均已开源。

来自主题: AI技术研报
4321 点击    2024-10-25 10:56
目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。

来自主题: AI资讯
9601 点击    2024-05-27 16:47
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报
8405 点击    2024-05-22 13:33