AI TNT— 让一部分先用AI实现商业化

下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报

3839 点击 2024-07-09 16:03