
一文看懂多模态思维链
一文看懂多模态思维链多模态思维链(MCoT)系统综述来了!
多模态思维链(MCoT)系统综述来了!
RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下,混合多种媒体形式且具有复杂布局的文档随处可见,比如一份PPT:
万字长文,对多模态LLM中对齐算法进行全面系统性回顾!
国产厨电龙头老板电器出品的全球首个烹饪大模型「食神」升级,不光接入了DeepSeek,还拓展了多模态。像推荐菜谱、指导烹饪已经是常规操作。在此基础上,它还能一眼看出你的健康状况——通过面部识别、分析体检报告,生成长期的健康膳食计划。
Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。
近日,中国人工智能学会发布2024年度“吴文俊人工智能科学技术奖”公告,京东科技人工智能团队凭借“多模态交互式数字人关键技术及产业应用”项目荣获中国智能科学技术最高奖——吴文俊人工智能科学技术奖的特等奖,也是本年度唯一的特等奖。
评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。
通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。
全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。