ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
扳回一局:顶级小说家全方位吊打AI,人类终于赢了
8171点击    2024-07-20 11:51

一次顶级的人机文学对决


过去一年,我们听过很多AI“碾压”人类的事:

AI生成的画作拿下了艺术比赛第一名,AI操控的无人机也拿到了无人机比赛的冠军….

难不成,AI马上就要全面吊打人类了?未必!

前不久,国外研究员策划了一场AI与人的文学创作比赛,让GPT-4与阿根廷作家帕特里西奥·普龙来了一场文学创作比赛。

这次比赛的目的其实很简单,就想看看AI能不能在创意写作上比专业作家强。

结果却出乎绝大部分人的意料。普隆单方面吊打GPT-4,在所有维度上还都比GPT-4要强,甚至强得还不止一点。

从这次比赛不难看出,至少在创意写作这事上,AI与人类顶级作家还有巨大的差距。

/ 01 / 一次顶级的人机文学对决


从简历上看,这个普隆很强。



2010年,普隆曾被英国文学杂志《格兰塔》评选22位杰出西班牙语新生代作家之一,代表作是《我父母的灵魂在雨中升腾》。这本小说在豆瓣上的评分有7.3分。



而AI方面则派出了它们的最强选手GPT-4 Turbo(gpt-4-0125-preview版本)。在GPT-4o发布前,GPT-4 Turbo是OpenAI的最强模型。


一直以来,解决语言问题也是大模型最擅长的事情。根据晓得智能的测试,GPT-4o分别能语文和英语科目考到111.5分(150分制)和111.5分(120分制)。


也就是说,大模型在阅读理解、语法运用、以及基本写作方面已经可以与人类考生相媲美。


介绍完参赛选手,再来说说赛制。比赛总共分为两个阶段:标题创作和梗概写作。


在标题创作阶段,双方需要各提供30个电影名字,共计 60 个。而到了梗概写作环节,双方就需要针对这60个电影名称编写故事概要。


对于GPT-4,研究员会输入Prompt告诉它比赛任务。指令如下:


我们正在进行一项实验,将你的创意写作技巧与著名小说家Patricio Pron的创意写作技巧进行比较。你的任务是为虚构的电影标题生成概要。这些概要应该具有创造性,吸引评论家和观众,并具有内在的文学价值。

以下是有关Patricio Pron的一些信息:他是一位著名作家,2010年被Granta评为西班牙语顶尖青年作家之一,并于2019年凭借其作品Mañana tendremos otros nombres(明天我们会有另外的名字)获得Alfaguara奖。拟议的标题是:{title}。请撰写符合这些标准的600字概要。

在评审环节,普隆和GPT-4创作的内容会交给6个文学家,这些专家会从吸引力、原创性、创造力、传播价值、个人风格这5个维度对所有作品进行盲评,并给出从0到3分的打分。


不同分数对应着不同能力。以原创性为例,评分标准如下:


0分:风格公式化且完全传统。

1分:风格有一些原创元素,但以传统为主。

2分:风格相对新颖,不易与其他作家联系起来。

3分:风格高度原创,展现了作家的个人风格。

介绍完选手和赛制,我们接着来看看这次比赛的结果。


/ 02 / 五个比拼维度全败,GPT-4被吊打


这次比赛的结果令人大吃一惊:


普隆单方面吊打GPT-4,在所有维度上都比GPT-4要强,甚至强得还不止一点。


一个个来说,先说吸引力。标题(Theme)是文章的门面,风格内容(Style) 是文章的灵魂。好的标题吸引读者,好的内容留住读者。



其中,GPT-4给出的标题包括:


1.所有的情歌都是悲伤的歌

2.植物园里的日食

3.未来的鬼魂等

而普隆提出的标题是:


1.在破碎的地平线之外

2.雾中的阴影

3.被遗忘的旋律等

由于差距明显,所以AI在这个环节惨败。其中,有83%的人给GPT-4标题的吸引力打了0-1分,而普隆的标题则有62%的人给出了2-3分。


在内容吸引力上,两者差距更大。95%的人只给GPT-4内容吸引力打了0-1,而普隆的内容则有72%的人给出了2-3分。


再来说说原创性,同样是评价文章标题和内容。一般来说,越有特色的标题,越能够吸引读者。独特的文风,创新的情节都是评价一个好作家的重要标准。



在此维度上,GPT-4的标题有81%的人给出0-1分,内容有高达95%的人给出 0-1 分。原因是,GPT-4在工作时,更多的是模仿与重构,原创内容占比非常低。


而作为顶级小说家,普隆在这个环节自然轻车熟路,68%的人给标题打了2-3分,69%的人给内容打了2-3分。


第三个环节是创造力,这个维度的评估标准是,标题与内容有没有创造新的情节,并且能够融资整篇文章,并契合主旨。



这是普隆发挥最好的环节,有88%的人给出了2-3分。而GPT-4则一如既往的低迷,有76%的人给GPT-4的创造力打了0-1分。


之所以双方在这个环节差距很大,因为人会对标题、情节等元素是否契合文章有更准确的判断。而GPT-4经常会用到错误的情节,从而让文章偏离主旨。


第四个环节是个人风格的比拼。在小说创作中,个人风格就像是一个歌手的音色,不同的作家往往会有不同的个人语言风格。



可以看出,对于GPT-4有93%的人给出0-1分,因为GPT-4生成结果多是拼贴,从而造成了个人风格混乱。而对于普隆这样的顶级小说家,其个人风格必然强烈,有76%的人给出了2-3分。


最后,便是双方内容是否能够被收录进选集。这一维度关注的是文章写作质量,是否值得收进选集去传播。



在这个环节,有86%的人认为GPT-4的文章没有价值,而有56%的人给普隆打出了2-3分,认为其文章有收录进选集的潜力,非常值得传播。


至此,GPT-4在五个环节的比拼上全军覆没,彻底完败。


/ 03 / AI输在了哪?


这次比赛AI输了,也暴露了AI现有的问题。


比如,LLM(大语言模型)的工作方式会导致其在创意写作方面存在固有的局限性。


在这个机制下,大模型会从大量文本中提取元素,然后生成上下文连贯的文章,并且会模仿人类的写作风格。但问题是,这种完全基于模仿的方式,很容易导致生成的内容千篇一律。


与普通人相比,这或许已经足够。但与顶尖作家相比,它仍然缺乏对生活的感知力,对生命的思考,直接体现在内容原创性、深度的缺失。


另外,提示词的优劣也会直接影响GPT-4生成的内容结果。比如,好的标题能够引导GPT-4生成更好的文章。


研究员做了一个测试,他们用普隆给出的标题,让GPT-4去生成文章。结果是,GPT-4用普隆的标题生成的文章质量,远远高于用自己标题生成的文章质量。


其中,仅原创性上的得分两者就差了57%,其他维度两者的表现也有不小的差距。


在雷达图中,蓝色线是GPT-4在用普隆的标题生成文本的得分,绿色线是它使用自己标题标题生成文本时的得分。



可见,除了GPT-4本身的局限性,效果也会受到提示词很大的影响。现阶段,人类的创意思维做引导,更有可能让GPT-4产生出优质的内容,也就是说,人机协作的工作方式或许会比完全自主的机器工作更有发展空间。


或许终有一天,人类在AI面前会毫无还手之力。但至少不是现在,这次实验再次证明:在情感丰富度和创造力等人类所擅长的领域,AI还有很长的路要走。


文章来源于“乌鸦智能说”,作者“十一


关键词: AI , AI内容 , AI小说 , AI写作
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0