OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布
6125点击    2024-12-05 09:20

OpenAI 再抢头条。


就在刚刚,Google Deepmind 深夜放大招,发布了最新基础世界模型 Genie 2。


想体验游戏世界?未来只需一张图片就能实现。


作为一个基础世界模型,Genie 2 能够凭借开局一张图生成各种可操作、可玩的 3D 环境。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


当 Genie 2 能准确预判角色行为并实时生成连贯画面,这也意味着它已经开始真正「理解」而不是简单「模仿」世界的运作规律。


附上博客原地址:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/?utm\_source=x&utm\_medium=social&utm\_campaign=&utm\_content=


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


而在凌晨时分,OpenAI 也正式官宣了为期十二天的圣诞惊喜活动。


十二月的硅谷不只是圣诞老人的主场,也是 AI 巨头们的年终对决。 不是冤家不聚头,Deepmind 头条再次被成功抢占。


Sam Altman 在 X 平台宣布:


🎄🎅 从明天太平洋时间上午 10 点开始,我们将启动为期 12 天的 OpenAI 活动。每个工作日,我们都会进行一场直播,展示一些新发布的内容或演示,有些是重磅活动,也有些是小惊喜。我们有很多精彩内容等着与大家分享,希望你喜欢!圣诞快乐!


网友也化身预言家,预测了 OpenAI 要发布的一些内容:


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


第 1 天:发布文本到视频 AI 工具 Sora。


第 2 天:为 ChatGPT 引入圣诞老人灵感的声音,增添节日气氛。


第 3 天:通过视觉功能增强 ChatGPT 的高级语音模式。


第 4 天:向免费用户发布 o1-preview,扩展了对高级推理模型的访问。


第 5 天:展示 1 月即将推出的 GPT 智能体。


第 6 天:发布 GPT-4o 图像。


第 7 天:推出新的开发者工具。


第 8 天:展示新的 Dalle。


第 9 天:宣布具有更大上下文窗口的 GPT-NEXT 模型。


第 10 天:发布辩论游戏,教机器辩论玩具问题。


第 11 天:推出 Microscope,这是神经网络模型可视化的集合。


第 12 天:将高级语音模式时间增加至每天 20 小时。


满血版 o1、Sora 的呼声在众多网友的猜测中此起彼伏,可以说,2024 年的 AI 竞赛正在酝酿最后的高潮。


具体细节,APPSO 也将第一时间送上。


把照片变成可玩的 3D 游戏,游戏开发者要失业了?


第一代 Genie 创造 2D 世界,而今天 Deepmind 推出的 Genie 2 则迈出了更大的一步,能够生成丰富多彩的 3D 世界。


作为世界模型,Genie 2 最厉害的地方在于它能「理解」虚拟世界的运作规律。比如当你操控角色跳跃或游泳时,它能准确预测和展示接下来会发生什么。


这得益于其在海量视频数据集上的训练,以及类似其他生成式模型所展现的多项涌现能力,包括物体互动、复杂角色动画、真实物理效果,以及对其他智能体行为的模拟与预测能力。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


DeepMind 发布的演示视频生动展示了用户与 Genie 2 的互动过程。


首先,系统使用 Imagen 3 根据文字描述生成初始图片。然后,Genie 2 就能基于这张图片创造出一个完整的互动世界。最后,用户可以用键盘鼠标在这个世界里自由探索,而 Genie 2 会实时模拟生成你看到的每一帧画面。


更重要的是, Genie 2 能够在一分钟内生成世界,大多数示例的时长为 10 至 20 秒。


具体而言,Genie 2 能智能响应键盘输入,准确识别并移动目标角色。比如,它能自动理解方向键应该控制机器人的移动,而不是场景中的树木或云朵。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


有趣的是,即使从同一个初始画面出发,由于玩家决策和行动的差异,最终可以产生截然不同的结果。这一特性对于训练 AI 智能体理解不同决策带来的后果极其有价值。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


另外,Genie 2 还拥有强大的「记忆力」和「创造力」,它能记住你看不到的地方是什么样的,在重新看到时还能精确重现。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


Genie 2 能保持长达一分钟的场景连贯性,动态生成新的合理内容。


Genie 2 支持多种视角切换,比如第一人称视角、等角视角或第三人称驾驶视频。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


Genie 2 能呈现复杂的 3D 视觉场景。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


Genie 2 支持多样化的对象交互,如气球爆炸、开门动作和炸药桶爆炸效果


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


Genie 2 支持为不同类型角色制作流畅的动画效果,支持多种活动形式


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


它不仅能够模拟其他智能体,还能模拟与这些智能体的复杂交互。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


不仅如此,Genie 2 还能模拟水效果、烟雾效果、重力、照明、反射等多种物理现象,并能使用真实世界图片生成动态模拟效果。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布

基于现实图片模拟生成


画张草图就能玩?但也有翻车的时候


Genie 2 能快速地将想法变成可以玩的 3D 场景。


也就是说,通过 Genie 2,研究人员可以设计和实现多种不同的交互式体验,这些体验可以模拟各种复杂的物理现象和行为,从而来测试和验证他们的理论或模型。


于是研究团队试着让 Genie 2 对不同的飞行物体(纸飞机、龙、鹰、降落伞)进行建模,以测试 Genie 2 在动画制作方面的能力,同时也就包括模拟这些物体的飞行动态和物理行为。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


对艺术家和设计师等创作者来说,这是一个极其强大的神器。想象一下,设计师画个简单的草稿,Genie 2 就能变成可以实际体验的 3D 环境,省去了大量复杂的制作过程。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


并且,通过使用 Genie 2 快速创建丰富多样的环境供 AI 智能体进行任务训练,Deepmind 研究人员还可以生成一些智能体在训练时未曾接触过的评估任务。


说人话就是,Genie 2 充当了 AI 的「训练场」,能快速创造出各种各样的「考试场景」,来训练和测试他们与游戏开发者合作开发的 SIMA AI 智能体。


具体来说,SIMA 智能体主要是通过自然语言指令完成多种 3D 游戏世界中的任务。


举个具体的例子,研究团队先用一段简单的提示词生成了一张图片,然后使用 Genie 2 创建了一个包含两扇门(蓝色和红色)的 3D 环境,并给 SIMA 智能体提供了打开每扇门的指令。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


Prompt:一张第三人称视角的开放世界探索游戏截图。玩家是一个探险者,正在探索一片森林。左侧有一座红色门的房子,右侧有一座蓝色门的房子。相机位于玩家正后方。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


就像我们用键盘鼠标控制游戏角色一样,SIMA 能理解这些指令并完成任务。而 Genie 2 则负责把整个场景生动地构建出来。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


反过来,研究团队还可以利用 SIMA 来帮助测试 Genie 2 的能力。比如,团队通过指示 SIMA 环顾四周并探索房子后方,借此测试 Genie 2 创建的世界是否前后一致,比如房子后面是不是真的有完整的建筑。


不过呢,Deepmind 也承认,目前这项研究仍处于初期阶段,且在智能体和环境生成能力上有着很大的改进空间。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


比如说,官方也放出一些翻车的「花絮」,譬如明明是个安静的花园,突然冒出个鬼魂。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


滑雪的时候,角色莫名其妙地把滑雪板一扔,开始跑酷。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


手里拿着的「能量球」毫无征兆地「砰」地就炸了


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


尽管如此,但在 Deepmind 研究团队看来,Genie 2 将是解决训练具身智能体的结构性问题的关键,并且它能够实现向通用人工智能(AGI)发展的广度和泛化性,将是迈向 AGI 的重要一步。


说到具体的技术原理,Genie 2 本质上是一种自回归的潜在扩散模型,经过大规模视频数据集的训练。


视频经过自编码器处理后,提取的潜在帧被传递到一个大型 Transformer 模型,后者使用类似大语言模型的因果掩码进行训练。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


在推理时,Genie 2 可以以自回归方式进行采样,逐帧处理,基于过去的潜在帧和当前的动作生成新的帧。


研究团队使用无分类器引导方法来提高动作的可控性。


看着有些复杂,简单来说,它看过海量的视频资料,学会了预测画面怎么变化。当你在这个虚拟世界里行动时,它就能一帧一帧地生成新画面,从而让整个过程看起来特别流畅自然。


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布


官方目前展示的这些案例都是通过未蒸馏的基础模型生成的,目的是展示潜力。虽然研究团队也有一个能实时运行的精简版本,但输出的画面效果会差一些。


但不管怎么说,从平面到立体,Genie 2 完成了 AI 创造力的维度跃迁。


也许再过不久,「拍照」这个行为的含义将被重新定义。每张照片都可能成为一个入口,通向一个完整的虚拟世界。


文章来自微信公众号“APPSO”,作者“ 发现明日产品的”


OpenAI深夜官宣:连续12天发布AI大招,「截胡」DeepMind头条,Sora、满血o1或将发布

关键词: AI , openai , DeepMind , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales