时隔3年,清华团队的研究再次登上Nature封面。刚刚,世界首个类脑互补视觉芯片Tianmouc重磅发布,灵感来源于人类视觉系统。它能以极低带宽和功耗采集图像信息,突破了传统的视觉感知挑战,自如应对开放世界中极端场景难题。
时隔3年,清华团队的研究再次登上Nature封面。刚刚,世界首个类脑互补视觉芯片Tianmouc重磅发布,灵感来源于人类视觉系统。它能以极低带宽和功耗采集图像信息,突破了传统的视觉感知挑战,自如应对开放世界中极端场景难题。
相同性能情况下,延迟减少 46%,参数减少 25%。
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。
近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。
在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创建初创公司
瑞士信息与通信科技公司Assaia International(以下简称Assaia)成立于2018年,该公司开发了一款AI视觉识别软件,能通过人工智能和计算机视觉实时识别并管理机场空侧运营状态,帮助机场、航空公司和地勤人员提升空侧运营管理效率,将航班准点率提高17%,将飞机周转时间缩短11%。
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
我们知道,球状星团是一种受引力束缚,成员由几万颗到数百万颗恒星组成的古老星团,在外观上大多呈球形,但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程,星族合成路径等是当今天文学界的研究热点。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强?