AI TNT— 让一部分先用AI实现商业化

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

6586 点击 2024-09-06 11:59

北大领衔，多智能体强化学习研究登上Nature子刊

近日，由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果 ——「大规模多智能体系统的高效强化学习」在人工智能顶级学术期刊 Nature Machine Intelligence 上发表。

来自主题: AI技术研报

6598 点击 2024-09-06 11:55

吴恩达，对 Agentic Workflow 持续兴奋

继吴恩达在今年 4 月红杉 AI 峰会演讲过去之后，Agent > GPT5？吴恩达最新演讲：四种 Agent 设计范式（通俗易懂版）。

来自主题: AI技术研报

5501 点击 2024-09-06 11:48

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型（VLM）这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互，因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体，这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报

6615 点击 2024-09-04 16:04

清华EconAgent获ACL 2024杰出论文：大模型智能体革新计算经济学研究范式

近日，清华大学电子系城市科学与计算研究中心的研究论文《EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities》获得自然语言处理顶会 ACL 2024杰出论文奖（Outstanding Paper Award）。

来自主题: AI技术研报

6622 点击 2024-09-04 15:53