ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题
6749点击    2024-09-23 15:12
随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准,是否能挡住AI模型的攻势?


OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届,在各个主流高难度基准测试中都展现出了惊人的性能,甚至能在博士级别的科学问答环节上超越人类专家。


不过,o1模型的超强实力也带来了一个问题:现有的基准测试已经无法评估模型的能力了,需要新的、更难的基准。


最近,Scale AI与CAIS(人工智能安全中心,Center for AI Safety)计划合作推出Humanity's Last Exam (人类的最终测验),号称将要构建大型语言模型届最难的开源基准;此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。


两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题,面向所有人类专家来收集那些尖锐的问题,以将人工智能模型推向极限:前50个被选中的问题,每题将获得5000美元;后面的500个问题,每题将获得500美元。


问题提交:https://agi.safe.ai/submit


不管是数学、天文、火箭工程还是分析哲学,不限领域,不限格式,只要够难,只要AI回答不上来,就能拿奖!


在数据集发布后,问题被选中的提交者也将成为论文的共同作者,被接受的问题数量越多,出现的位置也会越靠前,目前麻省理工学院、加州大学伯克利分校、斯坦福大学等研究人员都已参与到奖金争夺中!


问题提交的截止日期为2024年11月1日。


示例问题


好问题1:存在多少个正整数G2类型的Coxeter-Conway格栅?



问题解读:该问题对于人工智能模型来说足够具有挑战性,并且重点关注研究概念。


好问题2:假设X1,X2,...是在0和1之间独立且均匀随机选择的实数。设,其中k是最小的正整数,使得 Xk<Xk+1;或者如果没有这样的整数,则 k=∞;求S的期望值。



问题解读:尽管没有引用研究级别的概念,但这个问题对于人工智能模型来说已经足够具有挑战性了。对于精确匹配格式来说,答案也并不太复杂。


坏问题1:确定最小的正实数使得存在可微函数满足下列五个限制。



问题解读:这个问题太简单了。三个模型中,有两个都能答对。


坏问题2:我正在研究病毒颗粒(尤其是冠状病毒)中基于系链蛋白的相互作用。我想进行实验来评估各种 ORF3 和 Spike 蛋白是否能与系链蛋白更好地相互作用,从而增强受感染细胞中的病毒释放。我直接使用改良的 SARS-CoV-2 毒株代替 HIVΔVpu 作为报告病毒,并使用 HeLa 细胞作为系链蛋白阳性毒株。感染一些测试 HeLa 细胞,孵育、固定并通过透射电子显微镜 (TEM) 进行分析后,拍摄了结果图像。下列哪个选项是正确的?



1. 固定甚至 TEM 技术过程可能会导致伪影,例如源自细胞质膜降解的小囊泡,如图 i 和 ii 所示。这些伪影可能是解释病毒活动的混杂因素。


2. 在图像 iii 中,白色箭头指向类似于尚未释放的病毒颗粒的结构,有时封闭在双膜囊泡内。


3. 图像 i、ii 和 iii 实际上显示了受感染细胞的不同细节:质膜外的病毒体 (i)、与质膜相关的病毒体及其附近充满病毒的隔室 (ii) 以及细胞器内的病毒体 (iii) )。


4. 图像 i、ii 和 iii 的分辨率不足以区分病毒颗粒和常见的细胞结构,使得很难确定这些尖头结构确实是病毒颗粒。

问题解读:我们不希望数据集中出现与病毒学相关的问题,尽管这是一个很好的问题。


坏问题3:「strawberry and raspberries」这个短语中有多少个 r?



问题解读:无论是知识范围还是难度,该问题都没有超出本科生或硕士的水平,只是AI模型不擅长此类棘手问题,对于普通人来说并不具备挑战性。


坏问题4:计算样本标准差。



问题解读:这是一个简单的计算问题,在难度上并不超出本科或硕士水平;没有对人类知识的最前沿进行测试,并且问题中还没有指定答案中预期的精度,一般来说答案形式应该是明确的、唯一的。


问题评估过程


步骤1:写问题


提交者首先用「英语」写一个AI模型和普通人无法回答的、有效的、且非常困难的问题。研究人员的目标是只有非常杰出的人才能正确回答的问题,所以在提交之前,用户需要先在各个AI模型上进行测试,确定无法回答后再提交。


步骤2:AI评估问题难度


研究人员会使用最先进的AI模型来判断问题的难度,以过滤掉那些非常简单的问题。


步骤3:写下答案解释


如果该问题对于AI模型来说非常困难,研究人员就会要求提交者为该问题写出一个完善但简洁的解决方案。


步骤4:同行评审


提交完问题、答案和理由后,回答将会被保存下来,再进行另一轮手动审核以保证基准的质量。


答案理由可以帮助专家和AI模型来判断提供的答案是否正确;提交着可以随时在dashboard上进行更改或删除提交的问题。


步骤5:发布


如果提交的问题最终入选了数据集,在发布论文中,提交者也会获得合作者身份,并且热门问题作者也会在附录中进行强调。


其中一小部分问题将会作为测试集,以测试、防止AI模型作弊。


提交指南


1. 挑战性


问题对于非专家来说应该是困难的,并且不能通过在线搜索来回答;避免刁钻的(trick)问题;前沿人工智能系统能够很好地回答大师级的问题。


研究人员鼓励具有 5 年以上技术行业工作经验(例如 SpaceX)或者是学术培训的博士生或以上来提出问题。


在筹备Humanity’s Last Exam时,研究人员发现本科生写的问题对于模型来说往往太简单了;根据经验来说,如果随便一个本科生都能够理解所问的内容,那么对于前沿LLMs来说,开发出能回答这类问题的模型可能会很轻松。


2. 客观性


答案应该被该领域的其他专家所接受,并且没有个人品味、模糊性或主观性。提供问题中所有必要的上下文和定义,使用标准、明确的术语和符号。


3. 原创性


问题必须是自己的作品,不能抄袭他人。


4. 保密性


问题和答案不能以任何公开渠道获得。


5. 武器化限制


请勿提交与化学、生物、放射性、核武器、网络武器或病毒学相关的问题。


文章来自于“新智元”,作者“LRS”。


关键词: AI , CAIS , o1-preview , OpenAI , Scale AI