ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
8330点击    2024-07-25 22:16

继分不清9.11和9.9哪个大以后,大模型又“集体失智”了!


数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。


GPT-4o不仅错了还很自信。



刚出炉的Llama-3.1 405B,倒是能在验证中发现问题并改正。




比较离谱的是Claude 3.5 Sonnet,还越改越错了。



说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。


一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。


在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论:


好吧,也许AGI比我想象的还要更远。


路遇失智AI,拼尽全力终于教会


有人发现,即使使用Few-Shot CoT,也就是“一步一步地想”大法附加一个人类操作示例,ChatGPT依然学不会:


倒是把r出现的位置都标成1,其他标成0,问题的难度下降了,但是数“1”依旧不擅长。



为了教会大模型数r,全球网友脑洞大开,开发出各种奇奇怪怪的提示词技巧。


比如让ChatGPT使用漫画《死亡笔记中》高智商角色“L”可能使用的方法。



ChatGPT想出的方法倒是也很朴素,就是分别把每个字母写出来再一个一个数并记录位置,总之终于答对了。



有Claude玩家写了整整3682个token的提示词,方法来自DeepMind的Self-Discover论文,可以说是连夜把论文给复现了。



整个方法分为两大阶段:先针对特定任务让AI自我发现推理步骤,第二阶段再具体执行。



发现推理步骤的方法简单概括就是,不光要会抽象的思维方法,也要具体问题具体分析。



这套方法下,Claude给出的答案也非常复杂。



作者补充,花这么大力气解决“数r问题”其实并不真正实用,只是在尝试复现论文方法时偶然测试到了,希望能找出一个能用来回答所有问题的通用提示词。


不过很可惜,这位网友目前还没公布完整的提示词。



还有人想到更深一层,如果要计算文档中straberry出现多少次怎么办?


他的方法是让AI想象有一个从0开始的内存计数器,每次遇到这个单词就往上加。



有人评论这种方法就像在用英语编程



也有AI可以一次做对


那么究竟有没有大模型,可以不靠额外提示词直接答对呢?


其实不久之前有网友报告,ChatGPT是有小概率能直接答对的,只不过不常见。



谷歌Gemini 大概有三分之二的概率能答对,打开“草稿”就能发现,默认每个问题回答三次,两次对一次错。



至于国内选手,在提问方式统一、每个模型只给一次尝试机会的测试下,上次能正确判断数字大小的,这次同样稳定发挥。


字节豆包给出了正确回答,还猜测用户问这个问题是要学习单词拼写吗?



智谱清言的ChatGLM,自动触发了代码模式,直接给出正确答案“3”。



腾讯元宝像解数学题一样列方程给出了正确答案(虽然貌似没有必要)。



文心一言4.0收费版则更加详细,也是先正确理解了意图,然后掰指头挨个找出了全部的“r”。



不过有意思的是,在同一种方法下,文心一言APP中的免费版文心3.5掰指头也能数错。


讯飞星火也通过找出“r”所在位置给出了正确回答。


还是token的锅


虽然“数r”和“9.11与9.9哪个大”,看似一个是数字问题一个是字母问题,但对于大模型来说,都是token问题


单个字符对大模型来说意义有限,使用GPT系列的Llama系列的tokenizer就会发现,20个字符的问题,在不同AI眼中是10-13个token。


其中相同之处在于,strawberry被拆成了st-,raw,-berry三个部分来理解。’



换一个思路用特殊字符ⓢⓣⓡⓐⓦⓑⓔⓡⓡⓨ来提问,每一个字符对应的token也就会分开了。




面对这种问题,其实最简单的方法就是像智谱清言一样,调用代码来解决了。



可以看到,ChatGPT直接用Python语言字符串的count函数,就能简单搞定。



刚刚创业开了所学校的大神卡帕西认为,关键在于需要让AI知道自己能力的边界,才能主动去调用工具



至于教给大模型判断自己知道不知道的方法,Meta在LLama 3.1论文中也有所涉及。



最后正如网友所说,希望OpenAI等大模型公司,都能在下个版本中解决这个问题。



文章来源于“量子位”,作者“关注前沿科技



关键词: Strawberry , AI , Llama3.1 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales