AI资讯新闻榜单内容搜索-patch

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: patch
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。

来自主题: AI技术研报
6271 点击    2025-05-03 14:52
文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。

来自主题: AI资讯
8445 点击    2025-01-10 10:48
Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

下一代视觉模型会摒弃patch吗?Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构,让Transformer直接学习单个像素而不是16×16的patch,结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报
4419 点击    2024-07-09 16:03
开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

虽然大型语言模型(LLM)在各种常见的自然语言处理任务中展现出了优异的性能,但随之而来的幻觉,也揭示了模型在真实性和透明度上仍然存在问题。

来自主题: AI资讯
7990 点击    2024-04-23 14:46
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。

来自主题: AI技术研报
6307 点击    2024-02-29 13:35
OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步

OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步

OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步

为何Sora会掀起滔天巨浪?Sora的技术,就是机器模拟我们世界的下一步。而且今天有人扒出,Sora创新的核心秘密时空Patches,竟是来自谷歌DeepMind和谢赛宁的论文成果。

来自主题: AI资讯
7929 点击    2024-02-18 15:15