AI TNT— 让一部分先用AI实现商业化

近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报

7871 点击 2024-07-11 20:31

一转眼，2024 年已经过半。我们不难发现，AI 尤其是 AIGC 领域出现一个越来越明显的趋势：文生图赛道进入到了稳步推进、加速商业落地的阶段，但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待，对动态视频的创作需求前所未有的高涨。

来自主题: AI资讯

9056 点击 2024-07-06 18:56

该文章的作者团队来自于斯坦福大学，共同第一作者团队Mert Yuksekgonul，Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang

来自主题: AI技术研报

7904 点击 2024-07-05 00:21

只要把推理和感知能力拆分，2B大模型就能战胜20B？！

来自主题: AI资讯

4313 点击 2024-07-02 17:59

多模态命名实体识别，作为构建多模态知识图谱的一项基础而关键任务，要求研究者整合多种模态信息以精准地从文本中提取命名实体。尽管以往的研究已经在不同层次上探索了多模态表示的整合方法，但在将这些多模态表示融合以提供丰富上下文信息、进而提升多模态命名实体识别的性能方面，它们仍显不足。

来自主题: AI技术研报

3954 点击 2024-07-02 17:35

只要将注意力切块，就能让大模型解码提速20倍。

来自主题: AI技术研报

9059 点击 2024-07-01 15:34

上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力，但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。

来自主题: AI技术研报

3675 点击 2024-06-28 11:23

AI卫星影像知识生成模型数据集稀缺的问题，又有新解了。

来自主题: AI技术研报

8052 点击 2024-06-21 20:17

测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了，针对视频理解能力的那种。

来自主题: AI技术研报

8994 点击 2024-06-20 23:25

360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

来自主题: AI技术研报

8068 点击 2024-06-11 10:02