ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
把大语言模型打造成赛博裁判需要几步?DeepMind 说,只需要两步
6867点击    2024-10-29 11:06

AI裁判通过反馈生成更公正报告,接近共识。


现在上网的环境,属于是时刻准备着:要么准备 吵架 辩论 ,要么准备反击。


不过「真理越辩越明」嘛,只是辩论得来来回 回,想要真的辩出道理来,需要一个裁判。


平台偶尔会当这个裁判,就是裁决的方法比较简单粗暴:小黑屋,启动。


那么,人工智能说不定可以呢?


基于大语言模型的 AI 来当这个裁判有不少优势:懂语言、能存住上下文不流失语境,而且任劳任怨,决不撂挑子。


DeepMind 就开发了这样一个模型:哈贝马斯机器。它的原理是收集所有个人的意见,由 AI 来汇总和生成群组意见,然后不断迭代。



英国人工智能安全研究所,用哈贝马斯机器做了一项测试:召集了 450 个参与者,分为 75 组。每个小组里有一个「书记员」,负责整理组内所有人的观点,撰写报告。同时,所有人的发言会被输入到一个语言模型当中,让模型来生成报告,拿去和书记员的报告做对比。


做这个哈贝马斯机器,DeepMind 用了一款稍早前的语言模型 Chinchilla,发布于 2022 年,采用了自回归语言模型架构。



尽管只有 700 亿的参数量,却有 1.4 万亿个 token,表现比 GPT-3 还强。 其中一个是生成模型,经过微调后,它用于生成小组的发言报告。


另一个部分是用来评估报告的个性化奖励模型(PRM),哈贝马斯机器通过使用一种独特的函数来结合使用 PRM,确保报告的公平性。整个哈贝马斯机器还可以整合每个成员的反馈,来修订报告。


DeepMind 自己也做过次测试,一次是在众包平台上,召集了 5500 人。后来担心众包平台上的样本不够多样化,又选了两百个志愿者做了第二轮。几次的结果都表示,由哈贝马斯机器撰写的报告更受他们的欢迎。由 AI 生成的报告,逻辑更清晰、信息量更大、更擅长捕捉大多数人的观点。


而且,AI 会一轮一轮接收反馈和新的意见,针对性地修订报告;再有新反馈就再修订,不厌其烦,直到无限接近所有人的共识。


牛津大学认知科学教授、前 DeepMind 员工克里斯托弗·萨默菲尔德参与了哈贝马斯机器的研究,他认为,哪怕面对同一件事,每个人的意见都是微妙的,而模型能够在高维度的层面聚合所有意见。


这样一来,就不难理解为什么取名叫「哈贝马斯机器」。哈贝马斯是知名的社会学家、哲学家,他曾经提出过「沟通理性」的理念:除了以收获个人利益为目标的沟通,还有一种沟通是以达成共识和理解为目标的。


于尔根·哈贝马斯


国庆时,我们发过 用 AI 帮忙去美团当外卖判官的体验,不少网友在评论区说,以后这活儿就让 AI 干了。相比于人,模型在「公平公正」上,似乎更得人心。


不过,用 AI 的利弊很明显:虽然得到一个看似公正的评判,但这个公正更倾向于「和稀泥」。


如果说买家和卖家之间的纠纷,是各自为了各自的利益,不肯让步。那判官、评审员的加入,则是考验是否能够形成共识,从而决定下一步行动。


事实证明,达成共识是相当困难的。即便 AI 提供了一种方法,而已可以通过一轮又一轮的提炼、反馈,来不断接近共识。但是想要真正实践起来相当困难,有照片、有视频,不同的人看来还是有不同的判定,更别提故意搅混水的。


哈贝马斯提出这个概念,也被学术界诟病过于理想主义,在实践中根本落地不了。开发这个模型时,DeepMind 的团队给高龄 90 岁的哈贝马斯发了邮件,询问他的意见。


笑死,根本没回复。开发人员说,「显然, 他不用电子邮件。」


文章来自于“APPSO”,作者“发现明日产品的”。


关键词: AI , DeepMind , AI裁判 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner