AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

近年来兴起的第一人称视角视频研究为理解人类社交行为提供了无法取代的直观视角,然而,绝大多数的既往工作都侧重于分析与摄像机佩戴者相关的行为,并未关注处于社交场景中其他社交对象的状态。

来自主题: AI技术研报
8674 点击    2024-06-10 15:02
329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。

来自主题: AI资讯
9931 点击    2024-06-08 15:57
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。

来自主题: AI技术研报
8812 点击    2024-06-02 14:38
多语言大模型新SOTA!Cohere最新开源Aya-23:支持23种语言,8B/35B可选

多语言大模型新SOTA!Cohere最新开源Aya-23:支持23种语言,8B/35B可选

多语言大模型新SOTA!Cohere最新开源Aya-23:支持23种语言,8B/35B可选

Aya23在模型性能和语言种类覆盖度上达到了平衡,其中最大的35B参数量模型在所有评估任务和涵盖的语言中取得了最好成绩。

来自主题: AI技术研报
9208 点击    2024-05-31 18:18
多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

多模态大模型,也有自己的CoT思维链了! 厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。

来自主题: AI技术研报
10879 点击    2024-05-28 20:56