OpenAI重夺竞技场第一,但这波靠的是4o

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI重夺竞技场第一,但这波靠的是4o
6988点击    2024-11-21 14:52

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:


Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。


OpenAI重夺竞技场第一,但这波靠的是4o


对,还不是o1满血版,而是新版4o


具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:


模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。


还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。


OpenAI重夺竞技场第一,但这波靠的是4o


o1核心贡献者Karina Nguyen对此做了进一步解释:


作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。


我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。


OpenAI重夺竞技场第一,但这波靠的是4o


而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。


OpenAI重夺竞技场第一,但这波靠的是4o


至于实际效果,我们简单测试了一下,看看你能给打个几分:


OpenAI重夺竞技场第一,但这波靠的是4o


重返第一,但4o


除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。


在创意写作方面,从第2位升至第1位;


在代码能力方面,从第2位升至第1位;


在数学能力方面,从第4位升至第3位(第1还是o1-preview)


在困难任务方面,从第2位升至第1位。


并且在风格控制(Style Control)之后,新版4o依然位居首位。


OpenAI重夺竞技场第一,但这波靠的是4o


风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。


总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。


OpenAI重夺竞技场第一,但这波靠的是4o


嗯,看上去很强很不错,但还是那句话……是4o。


结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:


可不是嘛,deepseek挺好。


OpenAI重夺竞技场第一,但这波靠的是4o


快把o1放出来,跟deepseek-r1正面比较一下


OpenAI重夺竞技场第一,但这波靠的是4o


简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!


还有人试图总结OpenAI的更新模式:


OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。


当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。


OpenAI重夺竞技场第一,但这波靠的是4o


嗯,才不管你期待的是什么呢


另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:


OpenAI重夺竞技场第一,但这波靠的是4o


不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。


比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:


## guardian_tool


Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:


- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).


Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:


```python


get_policy(category:str) -> str


```


The guardian tool should be triggered before other tools. DO NOT explain yourself.


“””


简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。


那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:


https://lmarena.ai/?leaderboard


有什么好玩的结果,欢迎回评论区分享给大伙儿~


参考链接:


[1]https://x.com/OpenAI/status/1859296125947347164


[2]https://x.com/lmarena_ai/status/1859307979184689269


文章来自于“量子位”,作者“鱼羊”。


OpenAI重夺竞技场第一,但这波靠的是4o

关键词: AI , GPT-4o , chatGPT , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0