ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间,旧范式还没有死
4650点击    2024-09-26 11:41

数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟!


OpenAI《Her》全量开放同一天,谷歌Gemini 1.5迎来重大升级。



除此之外,价格也是原来的一半,速度限制提升2-3倍;输出速度提升2倍、延迟降为原来三分之一。


开发者可以通过 Google AI Studio 和 Gemini API免费访问。聊天版本还得再等等。


不过也有网友发现了华点,虽然数学能力很强,但还是没有打败o1-mini以及o1完整版(94.8)。



谷歌Gemini 1.5大升级


此次更新的有两个型号:Gemini-1.5-Pro-002Gemini-1.5-Flash-002


总结来说,主要有这些更新:


  • 对于1.5pro(输入和输出都小于128K),降价幅度大于50%。
  • 速率限制提升2-3倍;
  • 输出速度提高2倍,延迟降低3倍;
  • 更新了默认过滤器设置。


首先,提升了整体性能,尤其在数学、长文本以及多模态方面。


在MMLU-Pro上性能提高约7%;而在 MATH 和 HiddenMath(内部保留的竞赛数学问题集)基准测试中,两种模型有约 20% 的显著改进,其中Pro版本以86.5%的成绩超过了o1-preview(85.5%)。


除此之外,在视觉理解和代码代码生成的评估中也有2%-7%的提升。


根据开发人员的反馈,这两个模型现在都采用了更简洁的风格,目的是使这些模型更易于使用并降低成本。


对于摘要、问题解答和提取等用例,更新后模型的默认输出长度比以前的模型短 5-20%。


价格方面,1.5pro输入token降价64%,输出token降价52%,对增量缓存token降价64%,10月1日开始生效。



速率限制也有所提升,1.5 Flash的付费速率限制从1000RPM提高到2000RPM;1.5 Pro速率限制从360RPM到1000RPM。


另外,输出速度提高2倍,延迟减少为原来的三分之一。



对于新模型,过滤器已切换成可选,默认情况下不会应用过滤器。


最后的最后,还有Gemini 1.5 Flash-8B实验版本更新,在文本和多模态能力方面都有显著的提升。


网友水灵灵地测试上了


有网友就这么水灵灵地测试上了。


他测试了Gemini 1.5 Flash的音频转录功能。后者能在50-60秒内转录13分钟音频。



多个音频文件测试结果中,转录准确率接近99%。如果音频清晰,准确率能达到100%。



有网友测试了它的视觉理解能力,结果顺利通过,之前难倒了一众视觉模型。



不过讨论最多的还是它数学能力的提升。



不过倒也有网友表示,数学基准也没啥用。它已经饱和,而且污染了大多数模型的训练数据。在现实世界的数学难题里,这些还是没办法跟o1系列相提并论。



虽然但是,谷歌升级模型还有一个用处。


那就是push一下OpenAI,赶紧发布新模型,以此来“夺回王冠”。


什么时候赶紧把o1完整版发了。(Doge)



文章来自于“量子位”,作者“小交”。


关键词: Gemini , 谷歌AI , o1 , AI