面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平
面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。
多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。
12月15日,上海交通大学医学院附属瑞金医院正式发布瑞金医学大模型矩阵,涵盖RJH-Base基座大模型、RJH-Med应用大模型,以及多模态大模型,并携手上海人工智能实验室、腾讯等建设可持续发展的医学大模型应用生态,实践以数据、知识、算法、模型为关键驱动的医学AI新范式。
OpenAI GPT-4.5 遭泄露,我们即将见识「加强版」多模态大模型
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。
用多模态大模型来做语义分割,效果有多好?一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定!
谷歌带着Gemini真的来了,多模态能力震惊全网。下一代模型将融合AlphaGo深度强化学习技术,2024年面世。真正可以叫板GPT-4的模型,当属谷歌Gemini。
哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。
训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。
由南洋理工华人团队新提出的80亿参数多模态大模型OtterHD,不仅可以搞定让GPT-4V都发愁的难题,甚至还可以数出来《清明上河图》(局部)里到底有多少只骆驼!