ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
昨晚,美商务部正式废止《AI扩散规则》,同时加码全球半导体出口管制,精准打击中国AI发展。发布指导意见,在世界任何地方使用华为AI芯片,都违反美国出口管制。 警告公众当美国AI芯片被用于训练/推理中国AI模型时的潜在后果。向美国公司发布关于如何保护供应链免受转移策略影响的指导意见。
AI大模型“六小虎”之一的月之暗面,近期对AI医疗产品进行了布局,用于提升旗下产品Kimi在专业领域的搜索质量,并且探索Agent等产品方向。针对上述信息,月之暗面回应《智能涌现》:Kimi近期持续在优化财经、法律、医学等专业领域的搜索信源质量,希望给用户提供更可信、可靠的高质量回答。
世界模型的进度条,最近坐上了火箭。
一夜之间,老黄天塌了(doge)。
还记得刘慈欣在《全频带阻塞干扰》中描绘的耀斑爆发吗?
“先推理、再作答”,语言大模型的Thinking模式,现在已经被拓展到了图片领域。
当训练成本飙升、数据枯竭,如何继续激发大模型潜能?
各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。