Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。
全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。
当机器人也开始找人代班,当一个人类操作一个机器人「入侵」你的生活,你会允许吗?
当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。
全球首款开卖的家务人形机器人来了!
这些刷屏的AI图片,你刷到了没?就是那种——和自己专属emoji合影的黏土风照片,画风长这样:本来以为是NanoBanana整的新玩法,结果点开评论区一看:嗐,原来是美图自家的AI Agent——叫RoboNeo~
RoboNeo 拿下百万 MAU 后,美图财报依旧强势。7 月中旬,美图上线了面向影像领域的 AI Agent RoboNeo,并靠“emoji 小人”的社媒风潮获取了第一批用户,上线一个月左右的时间,已拿下 100W 左右的 MAU。美图又以极快的速度,推火了一款新产品。在 AI 时代,聚焦影像的美图,有点乘风起的意味,如其昨天发布的半年报。
今天玩点轻松的。是 RoboNeo 的一些用法和提示词分享。其实这个7月初就出了,之前一直没写是因为我起初确实不信任他们,之前我早早体验了美图的那个 Whee 觉得挺失望,感觉浪费了我的订阅费。所以看到了 RoboNeo 宣传视频也无动于衷。
最近,AI圈又悄悄扔下了一枚“重磅炸弹”——美图公司,这个我们熟悉的影像巨头,终于祭出了它在AIGC领域的大杀器:美图RoboNeo。
前几日,号称“AIGC第一股”的美图悄悄上线了一个新的AI Agent——RoboNeo,并且这款产品在昨天(7月22日)“悄悄”登上了国区App Store图形与设计免费榜一的宝座。
给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。