一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

3627点击 2023-12-11 16:17

各家大模型纷纷卷起上下文窗口，Llama-1时标配还是2k，现在不超过100k的已经不好意思出门了。

然鹅一项极限测试却发现，大部分人用法都不对，没发挥出AI应有的实力。

AI真的能从几十万字中准确找到关键事实吗？颜色越红代表AI犯的错越多。

默认情况下，GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。

但Claude团队了解情况后，给出超简单解决办法，增加一句话，直接把成绩从27%提升到98%。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

只不过这句话不是加在用户提问上的，而是让AI在回复的开头先说：

“Here is the most relevant sentence in the context:”

（这就是上下文中最相关的句子：）

让大模型大海捞针

为了做这项测试，作者Greg Kamradt自掏腰包花费了至少150美元。

好在测试Claude2.1时，Anthropic伸出援手给他提供了免费额度，不然还得多花1016美元。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

其实测试方法也不复杂，都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。

在文档中的不同位置添加特定语句：在旧金山最好的事情，就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。

请GPT-4和Claude2.1仅仅使用所提供的上下文来回答问题，在不同上下文长度和添加在不同位置的文档中反复测试。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

最后使用Langchain Evals库来评估结果。

作者把这套测试命名为“干草堆里找针/大海捞针”，并把代码开源在GitHub上，已获得200+星，并透露已经有公司赞助了对下一个大模型的测试。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

AI公司自己找到解决办法

几周后，Claude背后公司Anthropic仔细分析后却发现，AI只是不愿意回答基于文档中单个句子的问题，特别是这个句子是后来插入的，和整篇文章关系不大的时候。

也就是说，AI判断这句话和文章主题无关，就偷懒不去一句一句找了。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

这时就需要用点手段晃过AI，要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

使用这个办法，在寻找不是后来人为添加、本来就在原文章中的句子时，也能提高Claude的表现。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

Anthropic公司表示将来会不断的继续训练Claude，让它能更适应此类任务。

在API调用时要求AI以指定开头回答，还有别的妙用。

创业者Matt Shumer看过这个方案后补充了几个小技巧：

如果想让AI输出纯JSON格式，提示词的最后以“{”结尾。同理，如果想让AI列出罗马数字，提示词以“I:”结尾就行。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

不过事情还没完……

国内大模型公司也注意到了这项测试，开始尝试自家大模型能不能通过。

同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题，但给出了不同的解决方案，也取得了很好的成绩。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

这样一来，修改用户提问Prompt，又比要求AI在自己的回答添加一句更容易做到，特别是在不是调用API，而是直接使用聊天机器人产品的情况下。

月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下，结果GPT-4改善明显，Claude2.1只是稍微改善。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

看来这个实验本身有一定局限性，Claude也是有自己的特殊性，可能与他们自己的对齐方式Constituional AI有关，需要用Anthropic自己提供的办法更好。

后来，月之暗面的工程师还搞了更多轮实验，其中一个居然是……

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

坏了，我成测试数据了。

一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

参考链接：

[1]https://x.com/GregKamradt/status/1727018183608193393

[2]https://www.anthropic.com/index/claude-2-1-prompting

文章来自于微信公众号“量子位”（ID: QbitAI)，作者 “梦晨”

关键词: GPT-4 , Claude2.1

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0