把大语言模型打造成赛博裁判需要几步？DeepMind 说，只需要两步

8194点击 2024-10-29 11:06

AI裁判通过反馈生成更公正报告，接近共识。

现在上网的环境，属于是时刻准备着：要么准备吵架辩论，要么准备反击。

不过「真理越辩越明」嘛，只是辩论得来来回回，想要真的辩出道理来，需要一个裁判。

平台偶尔会当这个裁判，就是裁决的方法比较简单粗暴：小黑屋，启动。

那么，人工智能说不定可以呢？

基于大语言模型的 AI 来当这个裁判有不少优势：懂语言、能存住上下文不流失语境，而且任劳任怨，决不撂挑子。

DeepMind 就开发了这样一个模型：哈贝马斯机器。它的原理是收集所有个人的意见，由 AI 来汇总和生成群组意见，然后不断迭代。

把大语言模型打造成赛博裁判需要几步？DeepMind 说，只需要两步

英国人工智能安全研究所，用哈贝马斯机器做了一项测试：召集了 450 个参与者，分为 75 组。每个小组里有一个「书记员」，负责整理组内所有人的观点，撰写报告。同时，所有人的发言会被输入到一个语言模型当中，让模型来生成报告，拿去和书记员的报告做对比。

做这个哈贝马斯机器，DeepMind 用了一款稍早前的语言模型 Chinchilla，发布于 2022 年，采用了自回归语言模型架构。

把大语言模型打造成赛博裁判需要几步？DeepMind 说，只需要两步

尽管只有 700 亿的参数量，却有 1.4 万亿个 token，表现比 GPT-3 还强。其中一个是生成模型，经过微调后，它用于生成小组的发言报告。

另一个部分是用来评估报告的个性化奖励模型（PRM），哈贝马斯机器通过使用一种独特的函数来结合使用 PRM，确保报告的公平性。整个哈贝马斯机器还可以整合每个成员的反馈，来修订报告。

DeepMind 自己也做过次测试，一次是在众包平台上，召集了 5500 人。后来担心众包平台上的样本不够多样化，又选了两百个志愿者做了第二轮。几次的结果都表示，由哈贝马斯机器撰写的报告更受他们的欢迎。由 AI 生成的报告，逻辑更清晰、信息量更大、更擅长捕捉大多数人的观点。

而且，AI 会一轮一轮接收反馈和新的意见，针对性地修订报告；再有新反馈就再修订，不厌其烦，直到无限接近所有人的共识。

牛津大学认知科学教授、前 DeepMind 员工克里斯托弗·萨默菲尔德参与了哈贝马斯机器的研究，他认为，哪怕面对同一件事，每个人的意见都是微妙的，而模型能够在高维度的层面聚合所有意见。

这样一来，就不难理解为什么取名叫「哈贝马斯机器」。哈贝马斯是知名的社会学家、哲学家，他曾经提出过「沟通理性」的理念：除了以收获个人利益为目标的沟通，还有一种沟通是以达成共识和理解为目标的。

把大语言模型打造成赛博裁判需要几步？DeepMind 说，只需要两步

于尔根·哈贝马斯

国庆时，我们发过用 AI 帮忙去美团当外卖判官的体验，不少网友在评论区说，以后这活儿就让 AI 干了。相比于人，模型在「公平公正」上，似乎更得人心。

不过，用 AI 的利弊很明显：虽然得到一个看似公正的评判，但这个公正更倾向于「和稀泥」。

如果说买家和卖家之间的纠纷，是各自为了各自的利益，不肯让步。那判官、评审员的加入，则是考验是否能够形成共识，从而决定下一步行动。

事实证明，达成共识是相当困难的。即便 AI 提供了一种方法，而已可以通过一轮又一轮的提炼、反馈，来不断接近共识。但是想要真正实践起来相当困难，有照片、有视频，不同的人看来还是有不同的判定，更别提故意搅混水的。

哈贝马斯提出这个概念，也被学术界诟病过于理想主义，在实践中根本落地不了。开发这个模型时，DeepMind 的团队给高龄 90 岁的哈贝马斯发了邮件，询问他的意见。

笑死，根本没回复。开发人员说，「显然，他不用电子邮件。」

文章来自于“APPSO”，作者“发现明日产品的”。

把大语言模型打造成赛博裁判需要几步？DeepMind 说，只需要两步

关键词: AI , DeepMind , AI裁判 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner