OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

10375点击 2024-05-08 20:13

OpenAI正在秘密A/B测试下一代模型，实力超强被怀疑是GPT-4.5或GPT-5。

就在奥特曼当谜语人暗示之后，两款新模型悄悄上线大模型竞技场。

Im-a-good-gpt2-chatbot
Im-also-a-good-gpt2-chatbot

和GPT-4-Turbo（左）同场竞技，gpt2-chatbot（右）明显更胜一筹。

提示词：画一个自由女神像。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

此前一款名为gpt2-chatbot的超强模型仅仅上线一天，热情的网友就把服务器挤爆了，不得不下架，大家纷纷表示还没玩过。

这次重新上线后，模型在一次报错中直接给出了跳转OpenAI平台网站的链接。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

这下大家都嗨了，做实了是OpenAI在搞A/B测试？

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

还有人表示，这俩模型可能已经在推理和计划方面进行微调。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

现在在竞技场里随机匹配，就能遇到这俩新模型。

这不，网友们已经纷纷前去测试，一探它们的底细了。

代码能力突出

和第一次露面有所不同，如今想要用上gpt2，只能在Arena(battle)里碰运气，Direct Chat中找不到它们的影子。

有的人运气好，试了5次就成功让这俩模型battle了一局。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

结合几个示例来看，im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

代码生成方面，它能一次生成一个可执行的游戏代码。

提示词：Code Flappy Bird game in Python

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

效果如下：

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

如果回答的代码有误，可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码，在未告知使用Colab时，模型写出的代码有问题。

但继续追问并表示自己用的是Colab，im-also-a-good-gpt2-chatbot能够自己修改对代码，im-a-good-gpt2-chatbot不行。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

还有在解决物理题方面，有Reddit用户说im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的物理题。

问题：绿灯侠从一栋高楼楼顶跳下，他从静止状态开始做自由落体运动到地面，在他下落过程的最后1秒时，距离地面的距离是大楼一半的高度，这座楼有多高？

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

不过我们实测了下，im-a-good-gpt2-chatbot似乎也能做对。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

还有人测试了一道推理题目，im-a-good-gpt2-chatbot可回答正确，im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

问题：现在有两个足球队。球队A赢了8次，球队B赢了5次，已知还剩7次比赛，球队B想要赢得整场比赛，还需要至少赢几次？

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

网友：白嫖大家反馈吗？

尽管OpenAI还是没有正式认领gpt2-chatbot，但网友几乎已经默认它们是一家了。

因此有人觉得，gpt2-chatbot在竞技场上搞A/B测试，这不是让大家免费给他当志愿者。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

OpenAI想要对内部模型进行人工评估，应该付给测试人员报酬，而不是在免费社区做。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

有人觉得他们这么做，就是为了炒热度。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot，但可能存在幻觉，它表示自己基于GPT-4架构，是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

也有人怀疑，这两个模型大小不一样，叫这个名字是不是因为采用了GPT-2的架构来训练模型。

这和单纯的MoE不同，它们使用了Q*、合成数据，Sam的推特编辑历史是不是暗示了这一点？

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

值得一提的是，最近有大V爆料称本周OpenAI将公布进军搜索引擎的消息。

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

OpenAI已经更新了网站主页，第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

爆料说这次发布的时间可能在北京时间周五的凌晨2点。

总之，最近OpenAI的动向，都有点神秘。

本文来自微信公众号“量子位”

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

关键词: openai , chatGPT , GPT-2 , 奥特曼 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0