ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿
5348点击    2024-11-15 20:21

鲨疯了!谷歌新版Gemini超越o1,强势登顶竞技场总榜第一!


在经6000+网友匿名投票后,不仅数学成绩和学霸o1相当,还拿下其它5个单项第一。



新模型名为Gemini(Exp 1114),成绩一公布,连CEO皮猜也亲自飞奔来站台。



而竞技场官方也在第一时间公布喜讯,并祝贺谷歌:


恭喜达到这一非凡里程碑!



这下尴尬了!说好的谷歌正在遭遇瓶颈呢?没想到人家反手就是一个王炸。


怕了怕了,或许,只有OpenAI立即发布满血版o1才能与之一战了?



目前新模型可在谷歌AI Studio体验,官方后续也计划提供API。



网友们也纷纷猜测,难道这就是传说中的Gemini 2——


拿下7项第一,数学也和o1不分伯仲


一夜之间,竞技场Imsys排名再被刷新:


从总榜来看,谷歌新模型Gemini(Exp 1114)分数直涨40+,挤下了之前一直霸榜的OpenAI模型(包括o1-preview、GPT-4o)



而且假如正面1v1遇敌,新Gemini貌似都有一半及以上概率取胜。


整体胜率热图显示,Gemini(Exp 1114)对战4o-latest胜率为50%,对战o1-preview胜率为56%,对战Claude-3.5-Sonnet胜率为62%。



同时,Gemini(Exp 1114)在单项上也很能打,一举拿下6个第一,包括:


  • 复杂提示(Hard Prompts):模型处理复杂或困难提示的能力;
  • 数学;
  • 创意写作;
  • 指令遵循:评估模型遵循给定指令的能力;
  • 长查询处理(Longer Query):衡量模型处理较长查询的能力;
  • 多轮对话(Multi-Turn):模型在多轮对话中保持上下文连贯性的能力;



要说最大看点,还是Gemini(Exp 1114)竟能与o1模型在数学能力上不分伯仲


要知道,据OpenAI官方说法,o1不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。



不过比较遗憾的是,对于写代码这项重磅功能,Gemini(Exp 1114)虽说相较于谷歌上一版本有所改进,但仍然未能挤进前三。(o1-mini/preview仍处于领先地位)



另外,在风格控制下,Gemini-Exp-1114也和前三无缘,甚至不及自家的Gemini-1.5-pro。(排在o1、4o-latest和Sonnet之后)


解释一下,风格控制(Style Control)是竞技场今年新推出的功能,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。



不过也有意外之喜,Gemini-Exp-1114这一次在视觉能力上拿下第一,超越了GPT-4o。



整体看下来,对于谷歌这次的反超,大家也感到十分意外。





目前,Gemini-Exp-1114已经可以在谷歌AI Studio体验,且官方计划后续提供API。




这不,有很多网友已经上手测试了,但好像争议蛮多——


网友反应不一


先总结一下,通过网友测试,目前可知Gemini-Exp-1114的以下信息:


  • 拥有32k上下文窗口
  • 模型回答知识截止日期为2023年4月,但回答结果会不一样
  • 加上了思维链


其中,32k上下文被大家狠狠吐槽。有人直言相比200万上下文窗口的Gemini 1.5,搁这儿不升反降呢!



兴许是感受到大家的怨怼了,谷歌AI Studio负责人赶紧出来打圆场:马上更!马上更!



安抚好众人情绪后,大家终于乐颠颠晒起了使用反馈。


透过其中一位小哥的观察,Gemini-Exp-1114这次也是用上了思维链,在回答时也能像人类一样一步步思考了。



而且,在数学能力上确实不错?


Gemini-Exp-1114正确回答了2024美国数学奥林匹克预选赛II 1-8题。



甚至相对弱项的编码,也有人第一次尝试就成功了。



然而,翻车总是难免的。


有人问了基准测试中的物理问题,结果Gemini-Exp-1114虽然有思维链加持,却仍然回答错误。



甚至老生常谈的数字比大小和数草莓中的“r”,竟还是失败。



更搞笑的是,有人问Gemini-Exp-1114“你叫什么?”


结果回答了claude(doge)。



实际上,大家一直在猜测Gemini-Exp-1114会不会是传说中谷歌计划更新的Gemini 2。




但根据实测,相当一部分网友出来表示否定


毕竟,它好像连旧版1.5 Pro会的问题也无法解决。



更有人声称,这是谷歌推迟发布更大模型(即Gemini 2)的策略,先弄一个残血版让大家玩玩,这样就别急着催更了。



结合CEO皮猜顺势放烟雾弹的做法,好像又有点道理(doge)!


AI Studio体验地址:


https://aistudio.google.com/prompts/new_chat


竞技场完整榜单:


https://lmarena.ai/?leaderboard


参考链接:


[1]https://x.com/lmarena_ai/status/1857110672565494098


[2]https://x.com/imxiaohu/status/1857183367365894487


[3]https://x.com/OfficialLoganK/status/1857106089063362768


[4]https://x.com/sundarpichai/status/1857114106928718329


文章来自于微信公众号“量子位”,作者“一水”


关键词: AI , Gemini , o1 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0