AI TNT— 让一部分先用AI实现商业化

GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了

来自主题: AI技术研报

7190 点击 2024-04-14 15:01

多模态大模型有了统一分割框架，华科PSALM多任务登顶，模型代码全开源

最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性，也为更多视觉场景下的应用探索了新的道路。

来自主题: AI技术研报

4633 点击 2024-04-08 15:49

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

近日，来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale，该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。

来自主题: AI技术研报

6000 点击 2024-04-08 15:41

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。

来自主题: AI技术研报

3332 点击 2024-04-07 17:46

值得你花时间看的扩散模型教程，来自普渡大学

Diffusion 不仅可以更好地模仿，而且可以进行「创作」。扩散模型（Diffusion Model）是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程，其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。

来自主题: AI技术研报

44541 点击 2024-04-05 15:30

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未见过的新物体；而类别级方法消除了这些假设（实例训练和 CAD 模型），但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。

来自主题: AI技术研报

6743 点击 2024-04-04 15:32

扩散模型攻克算法难题，AGI不远了！谷歌大脑找到迷宫最短路径

解决最短路径算法，也能被扩散模型完成。

来自主题: AI技术研报

4604 点击 2024-04-02 17:18

代码 | 清华Relay Diffusion：任意不同分辨率间无缝衔接，减少了训练和采样的成本

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《加入wisemodel社区志愿者团队》以及《欢迎加入wisemodel开源共创计划》。

来自主题: AI资讯

7873 点击 2024-04-01 11:19

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

【新智元导读】近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，只需一张照片，和一段音频，就能直接生成人物说话的视频！

来自主题: AI技术研报

6725 点击 2024-03-28 16:52

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

扩散模型凭借其在图像生成方面的出色表现，开启了生成式模型的新纪元。诸如 Stable Diffusion，DALLE，Imagen，SORA 等大模型如雨后春笋般涌现，进一步丰富了生成式 AI 的应用前景。然而，当前的扩散模型在理论上并非完美，鲜有研究关注到采样时间端点处未定义的奇点问题。此外，奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

来自主题: AI技术研报

4741 点击 2024-03-28 15:31