限定120分钟科研挑战,o1和Claude表现超越人类 限定120分钟科研挑战,o1和Claude表现超越人类 关键词: o1,claude,人工智能,RE-Bench 2小时内,Claude和o1就能超过人类专家平均科研水平。 来自主题: AI技术研报 7924 点击 2024-11-25 13:57
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率 AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率 关键词: AI,AI科学家,CORE-Bench,人工智能 大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。 不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的。 来自主题: AI资讯 3946 点击 2024-09-25 17:15