
谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命
谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」,从一张图片就能创造出可玩的虚拟世界,动作可控碾压Sora。网友惊叹,AI已经杀到视频游戏领域了。
真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」,从一张图片就能创造出可玩的虚拟世界,动作可控碾压Sora。网友惊叹,AI已经杀到视频游戏领域了。
近期,DiT(Diffusion Transformer)论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法,其中核心资源的排序是——人才第一、数据第二、算力第三,其他都没有什么是不可替代的。
问世才两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。
从2014年亚马逊开创性推出Amazon Echo开始,智能音箱横空出世。一开始的智能音箱,也只是有个“嘴”,只能实现播放音乐、查询信息、设置提醒等功能。
微软首个为Windows而设的智能体(Agent) 亮相:基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。
一位网友公开了他创作的一个可以自主学习的智能体,按照他的设想,这样的智能体将在LLM的加持下迅速成长为无所不能的AGI,而人类如果控制她成长的过程,就不需要专门进行对齐。
基于大模型的Agent会玩宝可梦了,人类水平的那种!名为PokéLLMon,现在它正在天梯对战中与人类玩家一较高下:
大模型的新考验来了!近日,来自卡内基梅隆大学的研究人员发布了评估LLM多模态Web代理性能的基准测试。
2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)