ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI重夺竞技场第一,但这波靠的是4o
6533点击    2024-11-21 14:52

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:


Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。



对,还不是o1满血版,而是新版4o


具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:


模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。


还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。



o1核心贡献者Karina Nguyen对此做了进一步解释:


作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。


我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。



而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。



至于实际效果,我们简单测试了一下,看看你能给打个几分:



重返第一,但4o


除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。


在创意写作方面,从第2位升至第1位;


在代码能力方面,从第2位升至第1位;


在数学能力方面,从第4位升至第3位(第1还是o1-preview)


在困难任务方面,从第2位升至第1位。


并且在风格控制(Style Control)之后,新版4o依然位居首位。



风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。


总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。



嗯,看上去很强很不错,但还是那句话……是4o。


结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:


可不是嘛,deepseek挺好。



快把o1放出来,跟deepseek-r1正面比较一下



简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!


还有人试图总结OpenAI的更新模式:


OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。


当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。



嗯,才不管你期待的是什么呢


另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:



不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。


比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:


## guardian_tool


Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:


- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).


Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:


```python


get_policy(category:str) -> str


```


The guardian tool should be triggered before other tools. DO NOT explain yourself.


“””


简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。


那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:


https://lmarena.ai/?leaderboard


有什么好玩的结果,欢迎回评论区分享给大伙儿~


参考链接:


[1]https://x.com/OpenAI/status/1859296125947347164


[2]https://x.com/lmarena_ai/status/1859307979184689269


文章来自于“量子位”,作者“鱼羊”。


关键词: AI , GPT-4o , chatGPT , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0