
冲击自回归,扩散模型正在改写下一代通用模型范式
冲击自回归,扩散模型正在改写下一代通用模型范式上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
AI领域的竞争,远未到鸣金收兵的时刻。
上周的开发者大会,谷歌冷不丁地掏出个 Veo3 就惊艳了全球。
Google I/O 2025 结束后,Google CEO Sundar Pichai 接受了《The Verge》主编专访,这也是双方连续第三年于 I/O 后展开对谈,而今年的背景更为特殊:Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台,Google 展现出前所未有的产品化信心。
大家好,我是袋鼠帝 还记得前两天Google IO大会上他们发布的最新视频模型Veo3吗 它可以根据提示自动添加环境音效、背景噪声、音乐和对话,并与画面完美同步 而且生成的视频相当炸裂,已经让我有点分不清虚幻与现实了 比如这位推特大神(Hashem Al-Ghaili)用Veo3制作的视频,相当🐂🍺
想象一下,你是一位金融分析师,面前堆满了数百页的季报、SEC文件和市场数据,你需要在明天早上交出一份全面的行业分析报告。
简单来说,Google Stitch 是一款由 AI 驱动的 UI 设计工具,能根据你的自然语言描述,自动生成高质量的网页和移动端界面。不止如此,它还支持直接导出 HTML/CSS 代码,甚至可以一键粘贴进 Figma,实现从原型到上线的无缝衔接。
在刚刚结束的 Google I/O 开发者大会中,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着“关键词+链接列表”,开始拥抱“自然语言交互+结构化答案”的“新”范式了。
在Google I/O的第二天,硅星人有机会和Google CEO Sundar Pichai交流。在这场小范围的沟通中,Pichai及Google的多名核心业务负责人回答了从搜索到广告再到AI等多个问题。今年是Pichai执掌Google的第十年,过去三年带领Google从OpenAI的冲击中走出,如今看来很可能成为他CEO生涯至今打过的最重要一仗。