# 热门搜索 #
搜索
搜索: 多模态
Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。

来自主题: AI技术研报
8059 点击    2024-06-15 15:58
i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

近年来兴起的第一人称视角视频研究为理解人类社交行为提供了无法取代的直观视角,然而,绝大多数的既往工作都侧重于分析与摄像机佩戴者相关的行为,并未关注处于社交场景中其他社交对象的状态。

来自主题: AI技术研报
8063 点击    2024-06-10 15:02
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。

来自主题: AI技术研报
8053 点击    2024-06-02 14:38