超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超!
搜索
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超!
你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)?
字节跳动开源了一个口碑还不错的模型——BAGEL (ByteDance Agnostic Generation and Empathetic Language model), 一个统一多模态基础模型。啥叫“统一”?一个模型就能同时理解和生成文本、图像、视频!
在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。
Context 是一家开发人工智能办公套件的初创公司,于5 月 28 日宣布完成 1100 万美元种子轮融资,由 Lux Capital 领投,高通创投和 General Catalyst 跟投。此轮融资使公司总融资额达到约 1575 万美元,估值达 7000 万美元。
就在刚刚,全球首款实时摄像头重磅诞生!从此,AI视频生成的「实时性」和「沉浸感」被重新定义,全行业都有了颠覆性方案。
当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时,一篇新闻报道的文本部分和你的查询的相关性是 0.7,配图的相关性 0.5;另一篇则是文本相关性为 0.6,图片也是 0.6。那么,哪一篇报道才是你真正想要的呢?
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
理想中的多模态大模型应该是什么样?十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。
多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此,在AI竞赛进入“下半场”之际(由最近的OpenAI研究员姚顺雨所引发的共识观点),设计科学的评估机制俨然成为决定胜负的核心关键。