谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态
5486点击    2024-12-12 09:14

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!


就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。


好消息是,Gemini 2.0 Flash实验版模型今天就在网页端开放,大家都能玩,移动端即将推出。


除此之外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


目前这个新功能在Gemini Advanced版本中可用。


谷歌这一波出手,再结合Sora的不尽如人意,新一天的直播还没开始,已经有人开始唱衰OpenAI了:


OpenAI的护城河是什么?


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


“面向智能体时代的新AI模型”


在谷歌CEO皮猜、Google DeepMind CEO哈萨比斯,以及Google DeepMind CTO科雷(Koray Kavukcuoglu)三人共同撰写的博客文章中,官方给Gemini 2.0的定位是:


面向智能体时代的AI模型。


在多模态方面的新进展,以及原生工具的使用,使我们能够构建新的AI智能体,以更接近实现通用助手的愿景。


具体如何体现?在Gemini 2.0 Flash实验版第一时间上线的同时,谷歌还在Gemini Advanced中推出了一项名为深度研究(Deep Research)的智能体新功能。


你可以把它当成以研究助理,围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


另外一个Gemini 2.0的重点关键词是:多模态。


2.0 Flash实验版除了支持图像、视频、音频多模态输入,还支持多模态输出。


不单单是简单的图文混排,可控的多语种文本到语音(TTS)输出也行,还能直接本地调用工具,比如谷歌搜索、代码工具、第三方用户定义的功能。


有ChatGPT插件那味儿了。


不过,作为实验模型,其文本到语音和原生图像生成功能目前仅提供给早期访问合作伙伴。谷歌透露2.0 Flash将在1月份正式推出,会提供更多不同大小的模型。


而根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini 2.0表现就已几乎全面超越Gemini 1.5 Pro 002。


而且它的速度是1.5 Pro的两倍。


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


谷歌表示,明年年初,会将Gemini 2.0扩展到更多旗下产品中,比如Project Astra。


就是I/O大会上谷歌推出来跟GPT-4o的语音功能打擂台的那个。


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


此次,基于Gemini 2.0,Project Astra更新了以下功能:


  • 更好的对话:现在能够以多种语言和混合语言进行对话,更好地理解口音和不常见的单词。
  • 使用新工具:Project Astra会用谷歌搜索、Lens和地图了。
  • 更强的记忆力:Project Astra现在拥有10分钟的会话记忆,并且可以记住更多历史对话,也就说,凭借这些“记忆”,它能更懂你了。
  • 改进延迟:Project Astra可以按正常人类对话的节奏来理解对话。


谷歌还提到,正在将Project Astra移植到眼镜等更多移动终端中。


另外,谷歌透露,他们正在和Supercell等游戏开发商合作,测试基于Gemini 2.0打造的游戏智能体们的实力。


这些智能体可以根据屏幕上的动作对游戏进行推理,并与玩家实时对话提供行动建议。


玩《突击小队》、《部落冲突》、《农场日记》,场面belike:


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


除了网页端可用,Gemini 2.0 Flash实验模型还通过Google AI Studio和Vertex AI的Gemini API向开发者提供。


从OpenAI跳槽到谷歌的Logan Kilpatrick表示,他们在Google AI Studio中创建了一个全新体验,展示了Gemini 2.0视频理解、原生工具使用、空间理解的入门应用。


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


那么,你觉得这够Agent吗?


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态


参考链接:


[1]https://x.com/GoogleDeepMind/status/1866869343570608557


[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents


文章来自微信公众号“量子位”,作者“鱼羊 西风”


谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales