
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。
想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。
近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。
面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。对此,来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准DreamBench++。
今天凌晨,OpenAI官方账号宣布,ChatGPT MAC版本桌面应用程序今日起向公众免费开放使用,但原定于6月底向Plus用户开放的语音功能将推迟一个月上线,据悉这是出于安全因素和用户体验的保证。
爆款AI应用,还未现身
AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论
OpenAI劲敌出手,追击GPT-4o。
昨夜上线的Claude 3.5 Sonnet,性能直接吊打了GPT-4o,甚至价格还更便宜。网友们纷纷展开实测,有人表示自己一半的工作已经可以由它替代了!而最让人惊喜的新功能,莫过于Artifacts了。
难度大升级的多任务长视频理解评测基准MLVU来了!
新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。