今日凌晨,Meta AI 部门副总裁 Ahmad Al-Dahle 发文,回应了近日发布的 Llama 4 大模型的争议问题:
对于「不同服务中模型质量参差不齐」这一问题,Ahmad Al-Dahle 解释称,由于模型一准备好就发布了,所以 Meta 的团队预计所有公开的应用实现都需要几天时间来进行优化调整,团队后续会继续进行漏洞修复工作。
对于 Llama 4「开卷作弊」(在测试集上进行训练),Ahmad Al-Dahle 表示这纯属无稽之谈,并表示团队绝对不会这么做。其表示,质量差异是由于需要对应用实现进行稳定化处理造成的。
Meta Llama 4 大模型于 4 月 6 日正式发布,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽。但据网友们实测后反馈,却几乎是一边倒的负面评价,并且有不少人质疑其真实性能。在各种负面评价声音中,Llama 在昨日迎来了更大的一波负面冲击:
据一亩三分地社区的用户爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底,于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差,拿出一个「看起来可以」的结果。
据悉,上述说的「将各个 benchmark 的测试集混合在 post-training 过程中」,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。
帖主表示,作为一名目前也在学术界的人,他宣称「实在无法接受 Meta 的做法」,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。帖主还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。
但对于上述「作弊」行为,一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称:这两天虚心听取各方的缺陷反馈,希望下一版中能有所提升。但他「实名」表示,团队从没有为了刷点而 overfit 测试集,并对上述「作弊」说法提出质疑:「请告知哪条 prompt 是测试集选出来放进训练集的,我给你道歉」。
据悉,LichengYu(虞立成)研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收;目前担任 Meta 的研究科学家经理。在 Meta 期间,他曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的文本 + 图像强化学习阶段。
文章来自微信公众号 “ APPSO ”