
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
来自主题: AI技术研报
7161 点击 2025-03-20 16:51