又双叒,抢在OpenAI直播之前,谷歌Gemini 2.5系列来了。
首个版本Pro Experimental一登场就抢下大模型竞技场第一名,并且整整比GPT-4.5高出40分!
Gemini 2.5同样是推理模型,用Jeff Dean的说法是:
这是我们最智能的模型,具有令人印象深刻的高级推理和编码能力。
Be like,给出一段提示词:
帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用p5js,不要用HTML。我喜欢像素风格的恐龙和有趣的背景。
1分钟左右,就能得到:
谷歌介绍,相较于Gemini 2.0 Flash Thinking这个谷歌首个推理模型,Gemini 2.5在基础模型和后训练技术上都有改进。
不仅是在大模型竞技场上一举拿下高分,在各种推理、数学、科学、编程基准上,Gemini 2.5 Pro都表现出色,属于是编程能跟Claude 3.7 Sonnet掰手腕,数学能跟Grok 3相媲美。
更详细测试结果看这里:
Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模态:可以理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频,甚至是整个代码库。
在推理能力之外,谷歌官方还强调了一把Gemini 2.5 Pro的编程性能:
2.5 pro擅长创造视觉上引人注目的Web应用程序和智能体代码。
谷歌DeepMind研究员们也释出了更多案例,比如把“六边形内旋转小球”这事整得更加酷炫:
Jeff Dean则兴奋地放出了一个编程+数学的用例,还说:
我记起了小时候第一次了解到曼德布罗特集时的兴奋之情。
(曼德布罗特集:一种在复平面上形成的分形集合)
p.s. 距离谷歌上新Gemini 2.0家族,也不过一个多月时间,怕不是让DeepSeek给逼急了(doge)。
目前,Gemini 2.5 Pro已经面向Gemini Advanced付费用户开放,开放人员也可以在Google AI Studio中试用。谷歌表示,未来几周内还将在Vertex AI上推出该模型。
不过,当我们拿最新大模型难题“竹竿问题”测试Gemini 2.5 Pro时,它并没能顺利通关。
试玩地址:
http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
参考链接:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
文章来自微信公众号 “ 量子位 ”,作者 鱼羊
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales