Meta Connect 2024推出Quest 3S、Llama 3.2与AR眼镜Orion。
北京时间9月26日1:00,一年一度的Meta Connect 2024于加利福尼亚州门洛帕克召开。扎克伯格以意料之中的新品Quest 3S作为开场,宣布Meta的元宇宙之梦开始向入门级消费市场普及。
同时,Meta还公布了其AI大模型Llama 的最新3.2版本,提供了视觉多模态能力,联合最新的AI语音对话能力AI Voice 。这些模型发布最大的意义在于,Meta补齐了所有的主流多模态,这为其融合AI和XR硬件打下了坚实的基础。同时,Meta公布的几项AI应用,如AI实时翻译、堪比“Her 2.0”的实时AI数字人也在业界解决方案上更进了一步,有成为杀手应用的潜力。
除此之外,本次发布的AR眼镜Orion,小扎称之为地表最强AR眼镜,它也给未来的元宇宙世界提供了更多入口。虽然仍不完美,但也是一个承载着AI空间计算设备最终形态野心的产品。据外媒报道,这款产品的成本超1w美金。
Mate依旧坚持在元宇宙和AI两条路上持续前进,并通过产品的融合,努力将虚拟现实和人工智能结合在一起。
2024年的Connect大会,扎克伯格再一次向世界展示了他布局下的虚拟现实世界的入口形态,我们看到了虚拟与现实的融合,自主可控和人工智能的融合,以及现实产品形态和未来操作体验上的融合。
Meta Quest 3S最先登场,这次它罕见地将产品价格先于参数和新功能更早进行发布。
扎克伯格急于让所有人知道这款全新的VR眼镜只卖299.99美元,比去年同期发布的Quest 3足足便宜了200美元,而且,它相比Quest 3并没有减配太多。
Meta Quest 3S拥有和“大哥”Quest 3相同的高通骁龙XR2 Gen 2芯片和8GB运行内存,这意味着,它们两者在计算数据的处理能力上完全相同。
同时,Quest 3S使用了和Quest 3完全相同的Touch Plus控制器,支持眼手部动作捕捉技术。
甚至,Quest 3S还拥有更长的续航时间。在Meta给出的官方数据中,内置4324mAh电池的Quest 3S可以实现2.5小时的续航,而拥有更大电池容量的Quest 3(5060 mAh),最长只能工作2.2个小时。
作为一款廉价款的虚拟现实眼镜产品,Quest 3S的遗憾之处是并没有使用更主流的Pancake光学结构,它使用了和Quest 1、2系列同款的菲涅尔透镜,这种设计相对更加成熟且成本低,但也意味着它整体的体积和重量会比Quest 3更大。
但两款产品真正的区别是显示效果上的差异:Quest 3S采用1832 x 1920(20 PPD每度像素)快速切换 LCD,刷新率为 90/120 Hz。
它的水平和垂直视场角只有96和90度,相比之下,Quest 3拥有2064 x 2208(25 PPD每度像素)以及水平110度、垂直96度的视场角。
很显然,Quest 3S彰显了Meta在多年元宇宙梦想下的野心,它用核心配置与主流产品相接近、但价格却更便宜的虚拟现实眼镜,推动VR眼镜向更广泛的用户群普及。
而驱动Meta做出这样一款产品的另一个动力,是其还在逐步完善中的虚拟现实生态。
在发布会上,扎克伯格表示Quest 3S将支持杜比视界技术,同时增加屏幕识别功能,能识别正在用的电脑并一键投屏。这拓展了Quest 3S这类虚拟现实头显产品更广泛的使用场景。
不过Meta搞砸了一件事,在现场演示这项技术的时候,Quest 3S意外的出现了崩溃,引得现场一阵欢呼,扎克伯格无奈赶紧搪塞过去。
随后,扎克伯格展示了最新版本的Horizon Worlds,虽然看起来还是很像“过家家”游戏,但也算正在慢慢进步着:今年推出了Avantar的多人同看Youtube的功能,希望以此吸引更多的油管用户。
第三方的应用方面,最大的惊喜来自《蝙蝠侠:阿卡姆暗影》,这款游戏将于10月22日发布,并将与新Quest 3和3S捆绑销售,有效期至明年4月。而之前已公布过的《异形:流氓入侵》和僵尸游戏《亚利桑那阳光》也会登陆Quest平台。另外,Meta还宣布将为Quest推出Wordle(纽约时报每天一更的文字游戏)。
哦,对了,为了让你买新的Quest 3S,Meta主动停产了Quest 2和Quest Pro,在卖光这两个产品的库存货之后,你能选择的,只有价格更便宜的Quest 3S,或者是配置更高的Quest 3。
Meta推Llama 3.2多模态大模型,轻量版能在手机上运行
与上届Connect 大会一样,本次大会的主角也少不了AI。
扎克伯格宣布了其旗下基础模型Llama 的3.2版本更新, 其大模型提供90B和11B两个版本,端侧模型则有1B和3B两个大小。
小扎展示了针对Llama 3.2开发的一个新的产品功能:通过上传图片,不仅可以做到清除、添加魔法画笔功能,而且也可以根据文字描述直接更换人物服装,甚至用彩虹替换现在的背景。
根据Mata提供的技术文档,可以直接把Llama3.2理解为一个支持多模态的Llama 3.1版本。因为Meta在图像识别训练过程的过程中,并没有更新其语言模型的参数。
在训练方法上Meta用了较为常规的方法,它为Llama3.1增加一个图像适配器和编码器,用Diffusion模型训练对应的文字和图像,再进行领域内容精校。
最后在对模型进行调整的后训练(Post Training)阶段,Llama 3.2还通过多轮的监督微调、拒绝采样(利用一个辅助分布来生成样本,并按照一定的概率接受或拒绝样本)和直接偏好优化让模型进行对齐。
有趣的是,在这一过程中,Meta利用Llama 3.1生成多组图像字幕,以优化模型对图像的描述。
在Meta 给出的测试结果中,Llama 3.2的90B版本的图形推理能力在多项测试中领先GPT 4o-mini。而11B版本则全面超越Claude 3的小版本Haiku版本。
扎克伯格表示,Llama 3.2的端侧版本 1B 和 3B 将是最强的端侧AI。
它当前能接受文字输入和输出,支持最大 128K 令牌的上下文长度。这两个端侧模型是通过对Llama 3.1 8B 和 70B 的剪枝(修剪掉大模型中利用率较低的参数)和蒸馏(利用大模型做教师,小模型学习的核心参数训练模式)训练而成。在微调训练过程中还加入了由Llama 3.1 405B提供的合成数据,以优化其在摘要、重写、指令遵循、语言推理和工具使用等多项能力上的表现。
发布会现场显示,Llama 3.2的3B版本在多项指标中超越谷歌6月份发布的 Gemma 2 2B 模型和8月微软发布的Phi 3.5 3.8B模型,尤其在涉及端侧常用的如摘要、指令跟随和重写任务中分数优势明显。
比如在测试遵守用户指令的能力的测试集IFEval上,Llama 3.2 3B的版本比同等大小的Phi 3.5提升超过20%。在测试调用工具能力的两项Benchmark上,Llama 3.2也优势明显。
这让Llama 3.2 在端侧的实际应用体验上能做到小扎所说的目前“最强”。不过在基础能力如推理、数学上,Llama 3.2 3B 大多落后于Phi 3.5 mini。
另外,这些模型在发布当天即支持高通和联发科硬件,并针对 Arm 处理器进行了优化。
除了能支持图像多模态理解的Llama 3.2,Meta此次Connect上还推出了Meta AI Voice。一次性补齐了所有主流多模态功能。在现场演示中,它和GPT-4o一样,能支持对话打断,声音也很自然,但遗憾的是并没有展示它有GPT-4o那样丰富的语调和情感表现。
虽然性能仅仅只是追平了GPT-4o,但Meta AI Voice找到了新卖点:它提供了5位名人的语音选项,比如007中冷面女上司的朱迪·丹奇、摘金奇缘的女主角林家珍的语音。
比起因疑似盗取斯佳丽·约翰逊声线而被告上法庭的OpenAI,Meta显然在这方面做得更靠谱。据《华尔街日报》报道,Meta已为每位名人的声音支付了“数百万美元”。一些名人希望限制其声音的使用范围,并确保在 Meta AI 被使用时他们不会承担责任。
据《路透社》报道,名人版语音将于本周在美国及其他英语市场通过 Meta 旗下的应用家族推出,这些应用包括 Facebook、Instagram 和 WhatsApp。
除了对基础模型能力进行补齐,Meta在AI应用方面也展示了一些新功能。这些功能在很大程度上都是现有AI解决方案中支持的功能,但Meta做的更进了一步。也更贴合其社交媒体或AI眼镜的使用场景。
比如现在Meta AI Studio支持直接构建AI数字人系统。在现场展示中,与数字人对话的延迟很低,其动作效果和声音都很真实自然。
想象一下,有一个用如此真实声音和面容和你对话的AI作为你的情感陪伴者,我愿称之为“看得见”的 Her 2.0。
它是否将开启AI陪伴型产品的黄金时代,还待用户来进一步检验。
另一个非常惊艳的产品是Meta Live翻译,借助Meta AI新的多模态能力,它能直接识别并将原始语言的口型更换到目标语言的口型。这一功能实际上已被HeyGen等公司先一步实现了,但基于Meta应用的覆盖广度,它可能将成为第一个完全流行的相关产品。
虽然Llama 3.1已经是目前开发者使用量最大的开源模型,但为了在应用层也能有更好地拓展,Meta在此次Connect大会上也发布了首个官方LLama产品开发工具 Llama Stack的发行版,它能极大简化开发者在不同环境中使用 Llama 模型的工作流程,还能实现检索增强生成(RAG)和集成安全功能的工具化应用的一键部署。
此次Llama 3.2的发布对Meta而言,意义极为重大。它补齐了Llama在前沿多模态模型上的核心短板,也为其后续的AI硬件产品,如支持AI智能的雷朋眼镜的多模态功能提供了基础。
去年Meta Connect大会上,可能谁都没想到,最火的产品不是Quest 3,而是Meta和眼镜制造商雷朋(Ray-Ban)一起推出的二代AI眼镜产品。
尽管一代默默无闻,也不妨碍欧美的科技发烧友们抢购二代雷朋智能眼镜,据IDC统计,Meta已出货超过70万副雷朋眼镜,尤其是今年第二季度的订单量,要比第一季度增加了一倍多。而在整个雷朋Meta眼镜的生命周期内,截至2024年5月,其全球销量已突破100万台,市场预计2024年全年出货量有望超过150万。
Meta趁热打铁,今年立即推出了它的新产品。
与其说是新产品,不如说这是一个全新的半透明款式,因为它整体的设计上和去年如出一辙。
但它拥有科技感更强的透明眼镜本体——果然全天下的硬件公司对于“科技感”的理解都差不多,必须半透明。
Meta在这一代的眼镜中增加了更多AI功能,其中最大的改进是增加了实时的人工智能图像识别功能,可以使用户向雷朋Meta眼镜询问当前看到的场景或者物体。用户还可以通过眼镜直接扫描二维码并拨打视线中看到的电话号码。
另外,这款太阳镜还支持了类似智能手机的提醒功能,加入了包括英语对法语、意大利语或西班牙语之间的实时语言翻译,以及与亚马逊音乐、Audible和iHeart Radio等音乐流媒体应用程序的集成。
Orian早就应该量产了,但是因为疫情Meta全面紧缩了预算,扎克伯格决定搁置发布,这导致Meta直到2024年才拿出了首款的AR眼镜产品。
这是一款重量仅98克的AR眼镜,这个重量在AR眼镜产品中并不算特别轻。
Orian的镜框由镁合金制成,它比铝合金更轻,也更容易散热。镜片由碳化硅制成,它耐用、重量轻、折射率高,这使得眼镜上投影仪发射的光线可以扩展到更大的视野面积。
但称Orian是一副AR眼镜,似乎并不严谨。它想要正常工作的话,需要通过一个腕带和一个计算主体协同。
计算主体提供了更多的处理算力,眼镜无法远离它单独工作,想要正常使用Orian,就得无时无刻地将计算主体佩戴在身边。
腕带的作用更有意思,它由高性能纺织材料制成,并使用肌电图 (EMG) 来理解与手势相关的神经信号。在几毫秒内,这些信号会被转换成输入信号,传达给计算主体,有点科幻电影那意思。
显示部分,Orion拥有70度的视场角,框架内配有Micro LED投影仪,可以把影像投射到镜片的硅基片上,这一点和目前所有的AR眼镜工作原理类似。
扎克伯格表示希望人们使用Orion来实现两个主要目的:与叠加在现实世界上的数字信息相互交流,以及与人工智能互动。
后者比较好理解,Orion拥有和雷朋Meta眼镜相同的AI能力,包括全新加入的图像识别能力以及语言交互能力。
前者更抽象。在现场,Meta演示了全息影像和现实世界结合的场景,Meta为这款眼镜开发了AR版本的Messenger的应用,它可以实现实时的全息投影视频通话,就好像对方站在你身边一样。
为了宣传AR眼镜,Meta还搬出了黄仁勋作为第一波体验Orion的用户,扎克伯格说:“老黄试过都说好”!
在扎克伯格看来,AR眼镜的成熟之路将是一个循序渐进的过程。一方面,会通过无显示屏的人工智能眼镜,比如雷朋 Meta实现更快速地普及。
另一方面,将通过带小显示屏的眼镜,比如Meta即将推出的Hypernova普及,这种眼镜可以提供更轻松地触控交互,比如与Meta AI交互或者与朋友之间的通信。
小扎表示,Orion代表AR眼镜的最终形态:成熟的AR眼镜拥有足够的计算能力,让你可以把智能手机留在家里。
话虽如此,虽脱离了手机,但出门还得带着计算主体协同,这也离我们想象中的最终形态有些差距。
除此之外,还有一盆现实的冷水很及时地泼了下来:Orion的续航只有2小时。往多了说,Orion只能让你在虚拟世界里当2个小时的超级英雄。
而且想要实现AR眼镜的终极自由可能不会太便宜。据The Verge和TechCrunch等外媒报道,在展示测试机时,Meta的工作人员表示目前Orion的硬件成本超过了10000美元。这意味着这款产品的价格要远超苹果的Vision Pro。
从2022年折戟元宇宙被多方嘲讽,到2023年成为开源AI的王,再到今年用智能眼镜叩开新一代AI硬件的大门。扎克伯格在这三年之间完成了一项几乎不可能的绝地反击。
这期间他的两个重要决策:做开源AI和开发轻量级智能眼镜,都在今天的Connect上开花结果。
从对搭载了AI功能的雷朋眼镜的展示中,我们确实看到了眼镜这一载体在AI 时代的优势:它既能够利用语音调用大模型,更能最直接的利用起多模态AI的潜力。直接的“看”比起用手机“扫”在用户体验上要自然的多。而这种直接很可能会决定下一代智能设备的转移。
最后发布的Orion,更是一个承载着AI空间计算设备最终形态野心的未来之作。比起厚重不适的Vision Pro,小扎的轻量化MR愿景更像是空间计算的未来。而现在这个愿景已经有了雏形。如果AI时代的智能设备迁移注定发生,比起AI Pin之类的小打小闹的尝试,Meta才是最接近其门槛的公司。
如果和一个身处2022年的人聊起这一切,他一定不会相信,扎克伯格这个看起来有点轴的技术宅,他真的信守承诺,带着我们离元宇宙的入口越来越近。
文章来源“腾讯科技”,作者“吴彬 郝博阳”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales