大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024
大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。
搜索
当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。
本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。
本文介绍了一篇语言模型对齐研究的论文,由瑞士、英国、和法国的三所大学的博士生和 Google DeepMind 以及 Google Research 的研究人员合作完成。
计算机程序可以生成很像真随机的「伪随机数」,而LLM表示,干脆不装了,我就有自己最喜欢的数。
本文关注OpenAI近期的两次收购,从这两次收购背后,试图拼起OpenAI设计“未来操作系统--LLMOS”的巨大蓝图。
能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
1981年,对冲基金传奇人物雷·达利欧提出,若存在一台存储世上所有事实数据并运行完美程序的计算机,未来即可被准确预测。 尽管我们尚未达到这一水平,但技术进步迅猛,以ChatGPT为代表的大型语言模型,已展现出预测未来的潜力。
大语言模型绝不会是通往AGI之路上的最后一个重大技术突破。
在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。
自 ChatGPT 发布以来,大型语言模型(LLM)已经成为推动人工智能发展的关键技术。