
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%小孩子都会的脑筋急转弯推理题,GPT-4和Claude 3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude 3几乎达到百分百的正确率。
小孩子都会的脑筋急转弯推理题,GPT-4和Claude 3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude 3几乎达到百分百的正确率。
Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案,可以将攻击成功率从 61% 降至 2%。
就在刚刚,Anthropic发现了大模型的惊人漏洞。经过256轮对话后,Claude 2逐渐被「灌醉」,开始疯狂越狱,帮人类造出炸弹!谁能想到,它的超长上下文,反而成了软肋。
大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。
作为 Meta 的前 CTO,Quora CEO Adam D'Angelo 目前还是 OpenAI 的董事会成员,在 Quora 之外推出的 Poe,成为当下接入大模型最多的 Chatbot 平台:GPT-4、Claude3、Mistral 等模型都有,用户也可以在上面搭建自己的 Chatbot 机器人,如果有别的用户使用,还可以产生收益。
现在,AI 大模型已经疯狂到这种地步了吗?此时此刻,正有两个 Claude 模型在无休止地对话,它们在探索整个宇宙的奥妙。
Kimi的难题是商业模式,大厂的难题是获客。
【新智元导读】Claude 3在通用任务上是全球最强已经毋庸置疑。更令人惊叹的是,它在专业领域的表现,比如化学任务,也能远远领先GPT-4。
上下文长度真的能形成护城河吗?
太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!