「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023
「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023C-MCR利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系,实现了在缺乏配对数据的多模态间进行训练。
C-MCR利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系,实现了在缺乏配对数据的多模态间进行训练。
北大联合腾讯打造了一个多模态15边形战士!以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。
首届开发者大会余温还在,GPT-5突然被爆2024年初就来。OpenAI首秀可谓是赚足了眼球,一系列新品更新,直接让ChatGPT和API同时崩溃。
在新模型发布后,智谱 AI CEO 张鹏和极客公园聊了聊他们的近况和一些行业认知。谈到与ChatGLM2相比,智谱 AI 此次瞄准 GPT-4V 推出的 ChatGLM 3 性能更加强大,接入了具有多模态理解能力的模型 CogVLM、代码增强模块 Code Interpreter、网络搜索增强模型 WebGLM,并增强了语义理解和逻辑理解能力,实现了若干功能的迭代升级。
OpenAI在首次开发者大会上宣布推出GPT-4 Turbo和众多新功能,包括Assistant API、多模态功能和GPT Store。GPT-4 Turbo具有更大的上下文窗口和更快的输出速度,而Assistant API使开发者更容易构建自己的AI应用程序。同时,GPT Store将允许用户创建和分享自定义版本的GPT。
基于LVLM幻觉频发的三个成因(物体共现、物体不确定性、物体位置),北卡教堂山、斯坦福、哥大、罗格斯等大学的研究人员提出幻觉修正器LURE,通过修改描述来降低幻觉问题。
GPT-4V学会自动操纵电脑,这一天终于还是到来了。 只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网:甚至还能快速摸清楚“播放音乐”的播放器网站和按钮,给自己来一段music:
视觉幻觉是常见于多模态大语言模型的一个典型问题。最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。
在 10 月 28 日举办的 CNCC 2023「超智融合 AI 大模型应用落地发展论坛」上,智子引擎发布了「元乘象 Chatimg3.0」,展示了多模态通用生成模型「元乘象 Chatimg3.0」的最新进展与落地探索。
Open AI今天给一些人悄咪咪开放了两个新功能,现在他可以上传PDF等文档进行分析和提问了,GPT-4加持下想必能有更好的结果。