PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。
搜索
PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。
首款M4 Mac、「全世界最好的AI一体机」终于来了!同时,苹果AI也正式上线,iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1用户,已经可以体验首批Apple Intelligence功能了……库克直呼:激动人心的新时代开始了!
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。
在人工智能的发展长河中,我们正站在一个激动人心的转折点。
近日,智谱在公众号陆续放出电脑版本与手机版本的AI Agent实操视频:
前几天那个AI应用爆炸之夜,除了Claude、Genmo、Ideogram 等等一群明星AI应用发布更新之外,Runway其实也发布了一个很酷的功能,只是被淹没在了信息的大爆炸里。
AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。
OpenAI 最近又有了新动作,这次他们的野心更大了。
2024 年是 AI Agent 的发展元年,多位科技巨头曾在公开演讲中表示 AI Agent 是 AI 应用的重要落地方向。
在对标OpenAI之路上,智谱AI又近了一步。 今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。