AI TNT— 让一部分先用AI实现商业化

前段时间，X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌，专门用来表达对另一位 AI 科学家 ——Gary Marcus 的不满

来自主题: AI技术研报

3594 点击 2024-04-17 20:03

来自Meta、基于Llama2，可是开源界最先进的AI编程大模型之作

来自主题: AI资讯

3492 点击 2024-04-11 10:02

秒懂视频的AI诞生了！KAUST和哈佛大学研究团队提出MiniGPT4-Video框架，不仅能理解复杂视频，甚至还能作诗配文。

来自主题: AI技术研报

5618 点击 2024-04-06 14:13

多模态大型语言模型进展如何？盘点 26 个当前最佳多模态大型语言模型。

来自主题: AI技术研报

7050 点击 2024-01-31 16:26

最近来自浙江大学ReLER实验室的研究人员提出SIFU模型，一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件，并结合扩散模型进行纹理增强，在几何与纹理重建测试中均达到SOTA，并且在真实世界中具有多种应用场景。

来自主题: AI资讯

5514 点击 2024-01-18 13:16

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。过去TAL中的建模是片段甚至实例级的，而现在只要视频里的一帧就能实现，效果媲美全监督。

来自主题: AI技术研报

6502 点击 2024-01-08 14:33

一句话定位视频片段

来自主题: AI技术研报

8688 点击 2024-01-06 16:15

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最热的研究方向。

来自主题: AI资讯

2479 点击 2023-12-23 16:09

继谷歌DeepMind AI工具成功预测出220万种晶体结构后，微软团队最新扩散模型MatterGen，能设计生成新颖、稳定的材料，刷新SOTA。

来自主题: AI资讯

8537 点击 2023-12-08 14:20

最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报

4598 点击 2023-11-24 15:10