
GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了
GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。
来自主题: AI技术研报
7350 点击 2024-08-31 15:19
大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。
在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近发布的一篇博客文章提醒我们,模型评估的工作同样非常重要。如何开发出优秀的评估测试,对AI能力的发展方向至关重要。