
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
还有12款大模型全军覆没……
AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论
坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。
OpenAI CTO Murati表示,GPT-5将在一年半后发布,在某些领域将达到博士的智能;而Claude 3.5 Sonnet,已经成为了第一个测试分数高于最聪明的人类博士的模型。当AGI进一步发展为ASI,它会因为接近神性的全知、全能、无所不在,而被人类敬奉为「新神」吗?当ASI给出一张「希特勒名单」,人类又将怎样?
OpenAI劲敌出手,追击GPT-4o。
昨夜上线的Claude 3.5 Sonnet,性能直接吊打了GPT-4o,甚至价格还更便宜。网友们纷纷展开实测,有人表示自己一半的工作已经可以由它替代了!而最让人惊喜的新功能,莫过于Artifacts了。
新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。
Claude大模型又双叒叕更新升级了!
今天, OpenAI劲敌Anthropic忽然丢炸弹,发布下一代旗舰大模型Claude 3.5 Sonnet。