谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆只需一句话,就能生成可实时交互的3D世界。 刚刚,谷歌DeepMind发布了新一代通用世界模型Genie 3。
只需一句话,就能生成可实时交互的3D世界。 刚刚,谷歌DeepMind发布了新一代通用世界模型Genie 3。
你会掏钱吗?你说巧不巧,就在 Sam Altman 官宣两个开源推理模型之前的半个小时,却被 Anthropic 抢先一步,发布了新模型 Claude Opus 4.1。
近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。
声音理解能力新SOTA,小米全量开源了模型。 MiDashengLM-7B,基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。
沉寂了长达半年之后,“AI六小虎”中有4家,用接连发布的新模型,又杀回了模型竞技场。就在半年前,六小虎的命题,还是“失败”。
在数据隐私日益重要的 AI 时代,如何在保护用户数据的同时高效运行机器学习模型,成为了学术界和工业界共同关注的难题。
老黄曾预言,每个像素都将由AI生成!刚刚,谷歌DeepMind放出的「通用世界模型」Genie 3,一句话即生720p实时模拟世界,1分钟视觉记忆一致性超高。刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。
今天凌晨,OpenAI 甩出一对王炸,正式发布两款开源模型:gpt-oss-120b 和 gpt-oss-20b。是的,你没看错,那个曾经被戏称为 CloseAI 的男人,带着他的诚意,回来了!
GPT-5又咕咕,但是把Claude新模型诈了出来—— Claude Opus 4.1,被曝正在进行内部测试。
一场激动人心的 AI 国际象棋比赛即将开幕。 看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?