让视觉语言模型搞空间推理,谷歌又整新活了
让视觉语言模型搞空间推理,谷歌又整新活了视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。
视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。
这两天,几乎整个AI圈的目光都被OpenAI发布Sora模型的新闻吸引了去。其实还有件事也值得关注,那就是Google继上周官宣Gemini 1.0 Ultra 后,火速推出下一代人工智能模型Gemini 1.5。
刚刚,我们经历了LLM划时代的一夜。谷歌又在深夜发炸弹,Gemini Ultra发布还没几天,Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌,开始进入了高产模式。
为了应对大模型不断复杂的推理和训练,英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs,纷纷开始研发全新的硬件解决方案。
该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。
谷歌Gemini迎来重大更新,包括Gemini Ultra和Gemini Advanced服务的发布,以及Bard品牌消失,Gemini成为唯一品牌。Gemini Ultra全面进入谷歌生态产品,并在多学科复杂知识的理解和处理上取得了优秀成绩。
大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。
生成式AI的诞生,为芯片设计开启了另一条路。现在不论是英伟达等科技公司,还是学术界,都在试图研发出能够完全自主设计芯片的AI系统。
谷歌推出Gemini大规模商业化,将其聊天机器人Bard改名为Gemini,并推出Gemini的Android版App。谷歌还将Gemini的能力加入iOS的Google App中,并免费向公众开放。Gemini还可替代原来的Google Assistant成为手机的默认语言助手。
刚刚,Google推出计划,用户可以每月花 19.99 美金订阅 Google One AI Premium,使用支持 Gemini 的 Gmail、Docs,Sheets,Slides 和 Meet——也就是说,你可以在谷歌办公全家桶中畅享 Gemini 的 AI 功能了。