ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一文读懂Meta Connect 2024:Llama 3.2来了,AR眼镜Orian亮相
4907点击    2024-09-26 11:36

Meta Connect 2024推出Quest 3S、Llama 3.2与AR眼镜Orion。


北京时间9月26日1:00,一年一度的Meta Connect 2024于加利福尼亚州门洛帕克召开。扎克伯格以意料之中的新品Quest 3S作为开场,宣布Meta的元宇宙之梦开始向入门级消费市场普及。


同时,Meta还公布了其AI大模型Llama 的最新3.2版本,提供了视觉多模态能力,联合最新的AI语音对话能力AI Voice 。这些模型发布最大的意义在于,Meta补齐了所有的主流多模态,这为其融合AI和XR硬件打下了坚实的基础。同时,Meta公布的几项AI应用,如AI实时翻译、堪比“Her 2.0”的实时AI数字人也在业界解决方案上更进了一步,有成为杀手应用的潜力。


除此之外,本次发布的AR眼镜Orion,小扎称之为地表最强AR眼镜,它也给未来的元宇宙世界提供了更多入口。虽然仍不完美,但也是一个承载着AI空间计算设备最终形态野心的产品。据外媒报道,这款产品的成本超1w美金。


Mate依旧坚持在元宇宙和AI两条路上持续前进,并通过产品的融合,努力将虚拟现实和人工智能结合在一起。


2024年的Connect大会,扎克伯格再一次向世界展示了他布局下的虚拟现实世界的入口形态,我们看到了虚拟与现实的融合,自主可控和人工智能的融合,以及现实产品形态和未来操作体验上的融合。


Meta Quest 3S 登场,降价不降料



Meta Quest 3S最先登场,这次它罕见地将产品价格先于参数和新功能更早进行发布。


扎克伯格急于让所有人知道这款全新的VR眼镜只卖299.99美元,比去年同期发布的Quest 3足足便宜了200美元,而且,它相比Quest 3并没有减配太多。



Meta Quest 3S拥有和“大哥”Quest 3相同的高通骁龙XR2 Gen 2芯片和8GB运行内存,这意味着,它们两者在计算数据的处理能力上完全相同。



同时,Quest 3S使用了和Quest 3完全相同的Touch Plus控制器,支持眼手部动作捕捉技术。


甚至,Quest 3S还拥有更长的续航时间。在Meta给出的官方数据中,内置4324mAh电池的Quest 3S可以实现2.5小时的续航,而拥有更大电池容量的Quest 3(5060 mAh),最长只能工作2.2个小时。


作为一款廉价款的虚拟现实眼镜产品,Quest 3S的遗憾之处是并没有使用更主流的Pancake光学结构,它使用了和Quest 1、2系列同款的菲涅尔透镜,这种设计相对更加成熟且成本低,但也意味着它整体的体积和重量会比Quest 3更大。



但两款产品真正的区别是显示效果上的差异:Quest 3S采用1832 x 1920(20 PPD每度像素)快速切换 LCD,刷新率为 90/120 Hz。


它的水平和垂直视场角只有96和90度,相比之下,Quest 3拥有2064 x 2208(25 PPD每度像素)以及水平110度、垂直96度的视场角。


很显然,Quest 3S彰显了Meta在多年元宇宙梦想下的野心,它用核心配置与主流产品相接近、但价格却更便宜的虚拟现实眼镜,推动VR眼镜向更广泛的用户群普及。



而驱动Meta做出这样一款产品的另一个动力,是其还在逐步完善中的虚拟现实生态。


在发布会上,扎克伯格表示Quest 3S将支持杜比视界技术,同时增加屏幕识别功能,能识别正在用的电脑并一键投屏。这拓展了Quest 3S这类虚拟现实头显产品更广泛的使用场景。



不过Meta搞砸了一件事,在现场演示这项技术的时候,Quest 3S意外的出现了崩溃,引得现场一阵欢呼,扎克伯格无奈赶紧搪塞过去。


随后,扎克伯格展示了最新版本的Horizon Worlds,虽然看起来还是很像“过家家”游戏,但也算正在慢慢进步着:今年推出了Avantar的多人同看Youtube的功能,希望以此吸引更多的油管用户。


第三方的应用方面,最大的惊喜来自《蝙蝠侠:阿卡姆暗影》,这款游戏将于10月22日发布,并将与新Quest 3和3S捆绑销售,有效期至明年4月。而之前已公布过的《异形:流氓入侵》和僵尸游戏《亚利桑那阳光》也会登陆Quest平台。另外,Meta还宣布将为Quest推出Wordle(纽约时报每天一更的文字游戏)。


哦,对了,为了让你买新的Quest 3S,Meta主动停产了Quest 2和Quest Pro,在卖光这两个产品的库存货之后,你能选择的,只有价格更便宜的Quest 3S,或者是配置更高的Quest 3。


小扎称最强端侧模型Llama 3.2来了



Meta推Llama 3.2多模态大模型,轻量版能在手机上运行


与上届Connect 大会一样,本次大会的主角也少不了AI。


扎克伯格宣布了其旗下基础模型Llama 的3.2版本更新, 其大模型提供90B和11B两个版本,端侧模型则有1B和3B两个大小。



小扎展示了针对Llama 3.2开发的一个新的产品功能:通过上传图片,不仅可以做到清除、添加魔法画笔功能,而且也可以根据文字描述直接更换人物服装,甚至用彩虹替换现在的背景。



根据Mata提供的技术文档,可以直接把Llama3.2理解为一个支持多模态的Llama 3.1版本。因为Meta在图像识别训练过程的过程中,并没有更新其语言模型的参数。


在训练方法上Meta用了较为常规的方法,它为Llama3.1增加一个图像适配器和编码器,用Diffusion模型训练对应的文字和图像,再进行领域内容精校。


最后在对模型进行调整的后训练(Post Training)阶段,Llama 3.2还通过多轮的监督微调、拒绝采样(利用一个辅助分布来生成样本,并按照一定的概率接受或拒绝样本)和直接偏好优化让模型进行对齐。


有趣的是,在这一过程中,Meta利用Llama 3.1生成多组图像字幕,以优化模型对图像的描述。


在Meta 给出的测试结果中,Llama 3.2的90B版本的图形推理能力在多项测试中领先GPT 4o-mini。而11B版本则全面超越Claude 3的小版本Haiku版本。



扎克伯格表示,Llama 3.2的端侧版本 1B 和 3B 将是最强的端侧AI。


它当前能接受文字输入和输出,支持最大 128K 令牌的上下文长度。这两个端侧模型是通过对Llama 3.1 8B 和 70B 的剪枝(修剪掉大模型中利用率较低的参数)和蒸馏(利用大模型做教师,小模型学习的核心参数训练模式)训练而成。在微调训练过程中还加入了由Llama 3.1 405B提供的合成数据,以优化其在摘要、重写、指令遵循、语言推理和工具使用等多项能力上的表现。



发布会现场显示,Llama 3.2的3B版本在多项指标中超越谷歌6月份发布的 Gemma 2 2B 模型和8月微软发布的Phi 3.5 3.8B模型,尤其在涉及端侧常用的如摘要、指令跟随和重写任务中分数优势明显。


比如在测试遵守用户指令的能力的测试集IFEval上,Llama 3.2 3B的版本比同等大小的Phi 3.5提升超过20%。在测试调用工具能力的两项Benchmark上,Llama 3.2也优势明显。


这让Llama 3.2 在端侧的实际应用体验上能做到小扎所说的目前“最强”。不过在基础能力如推理、数学上,Llama 3.2 3B 大多落后于Phi 3.5 mini。



另外,这些模型在发布当天即支持高通和联发科硬件,并针对 Arm 处理器进行了优化。


除了能支持图像多模态理解的Llama 3.2,Meta此次Connect上还推出了Meta AI Voice。一次性补齐了所有主流多模态功能。在现场演示中,它和GPT-4o一样,能支持对话打断,声音也很自然,但遗憾的是并没有展示它有GPT-4o那样丰富的语调和情感表现。


虽然性能仅仅只是追平了GPT-4o,但Meta AI Voice找到了新卖点:它提供了5位名人的语音选项,比如007中冷面女上司的朱迪·丹奇、摘金奇缘的女主角林家珍的语音。



比起因疑似盗取斯佳丽·约翰逊声线而被告上法庭的OpenAI,Meta显然在这方面做得更靠谱。据《华尔街日报》报道,Meta已为每位名人的声音支付了“数百万美元”。一些名人希望限制其声音的使用范围,并确保在 Meta AI 被使用时他们不会承担责任。


据《路透社》报道,名人版语音将于本周在美国及其他英语市场通过 Meta 旗下的应用家族推出,这些应用包括 Facebook、Instagram 和 WhatsApp。


除了对基础模型能力进行补齐,Meta在AI应用方面也展示了一些新功能。这些功能在很大程度上都是现有AI解决方案中支持的功能,但Meta做的更进了一步。也更贴合其社交媒体或AI眼镜的使用场景。


比如现在Meta AI Studio支持直接构建AI数字人系统。在现场展示中,与数字人对话的延迟很低,其动作效果和声音都很真实自然。


想象一下,有一个用如此真实声音和面容和你对话的AI作为你的情感陪伴者,我愿称之为“看得见”的 Her 2.0。


它是否将开启AI陪伴型产品的黄金时代,还待用户来进一步检验。


另一个非常惊艳的产品是Meta Live翻译,借助Meta AI新的多模态能力,它能直接识别并将原始语言的口型更换到目标语言的口型。这一功能实际上已被HeyGen等公司先一步实现了,但基于Meta应用的覆盖广度,它可能将成为第一个完全流行的相关产品。



虽然Llama 3.1已经是目前开发者使用量最大的开源模型,但为了在应用层也能有更好地拓展,Meta在此次Connect大会上也发布了首个官方LLama产品开发工具 Llama Stack的发行版,它能极大简化开发者在不同环境中使用 Llama 模型的工作流程,还能实现检索增强生成(RAG)和集成安全功能的工具化应用的一键部署。


此次Llama 3.2的发布对Meta而言,意义极为重大。它补齐了Llama在前沿多模态模型上的核心短板,也为其后续的AI硬件产品,如支持AI智能的雷朋眼镜的多模态功能提供了基础。


爆款产品“雷朋眼镜”,趁热打铁上新


去年Meta Connect大会上,可能谁都没想到,最火的产品不是Quest 3,而是Meta和眼镜制造商雷朋(Ray-Ban)一起推出的二代AI眼镜产品。


尽管一代默默无闻,也不妨碍欧美的科技发烧友们抢购二代雷朋智能眼镜,据IDC统计,Meta已出货超过70万副雷朋眼镜,尤其是今年第二季度的订单量,要比第一季度增加了一倍多。而在整个雷朋Meta眼镜的生命周期内,截至2024年5月,其全球销量已突破100万台,市场预计2024年全年出货量有望超过150万。


Meta趁热打铁,今年立即推出了它的新产品。



与其说是新产品,不如说这是一个全新的半透明款式,因为它整体的设计上和去年如出一辙。



但它拥有科技感更强的透明眼镜本体——果然全天下的硬件公司对于“科技感”的理解都差不多,必须半透明。


Meta在这一代的眼镜中增加了更多AI功能,其中最大的改进是增加了实时的人工智能图像识别功能,可以使用户向雷朋Meta眼镜询问当前看到的场景或者物体。用户还可以通过眼镜直接扫描二维码并拨打视线中看到的电话号码。


另外,这款太阳镜还支持了类似智能手机的提醒功能,加入了包括英语对法语、意大利语或西班牙语之间的实时语言翻译,以及与亚马逊音乐、Audible和iHeart Radio等音乐流媒体应用程序的集成。


Orian,Meta口中的AR眼镜终极形态?



Orian早就应该量产了,但是因为疫情Meta全面紧缩了预算,扎克伯格决定搁置发布,这导致Meta直到2024年才拿出了首款的AR眼镜产品。


这是一款重量仅98克的AR眼镜,这个重量在AR眼镜产品中并不算特别轻。



Orian的镜框由镁合金制成,它比铝合金更轻,也更容易散热。镜片由碳化硅制成,它耐用、重量轻、折射率高,这使得眼镜上投影仪发射的光线可以扩展到更大的视野面积。



但称Orian是一副AR眼镜,似乎并不严谨。它想要正常工作的话,需要通过一个腕带和一个计算主体协同。


计算主体提供了更多的处理算力,眼镜无法远离它单独工作,想要正常使用Orian,就得无时无刻地将计算主体佩戴在身边。


腕带的作用更有意思,它由高性能纺织材料制成,并使用肌电图 (EMG) 来理解与手势相关的神经信号。在几毫秒内,这些信号会被转换成输入信号,传达给计算主体,有点科幻电影那意思。


显示部分,Orion拥有70度的视场角,框架内配有Micro LED投影仪,可以把影像投射到镜片的硅基片上,这一点和目前所有的AR眼镜工作原理类似。


扎克伯格表示希望人们使用Orion来实现两个主要目的:与叠加在现实世界上的数字信息相互交流,以及与人工智能互动。


后者比较好理解,Orion拥有和雷朋Meta眼镜相同的AI能力,包括全新加入的图像识别能力以及语言交互能力。


前者更抽象。在现场,Meta演示了全息影像和现实世界结合的场景,Meta为这款眼镜开发了AR版本的Messenger的应用,它可以实现实时的全息投影视频通话,就好像对方站在你身边一样。



为了宣传AR眼镜,Meta还搬出了黄仁勋作为第一波体验Orion的用户,扎克伯格说:“老黄试过都说好”!


在扎克伯格看来,AR眼镜的成熟之路将是一个循序渐进的过程。一方面,会通过无显示屏的人工智能眼镜,比如雷朋 Meta实现更快速地普及。


另一方面,将通过带小显示屏的眼镜,比如Meta即将推出的Hypernova普及,这种眼镜可以提供更轻松地触控交互,比如与Meta AI交互或者与朋友之间的通信。


小扎表示,Orion代表AR眼镜的最终形态:成熟的AR眼镜拥有足够的计算能力,让你可以把智能手机留在家里。


话虽如此,虽脱离了手机,但出门还得带着计算主体协同,这也离我们想象中的最终形态有些差距。


除此之外,还有一盆现实的冷水很及时地泼了下来:Orion的续航只有2小时。往多了说,Orion只能让你在虚拟世界里当2个小时的超级英雄。


而且想要实现AR眼镜的终极自由可能不会太便宜。据The Verge和TechCrunch等外媒报道,在展示测试机时,Meta的工作人员表示目前Orion的硬件成本超过了10000美元。这意味着这款产品的价格要远超苹果的Vision Pro。


结语


从2022年折戟元宇宙被多方嘲讽,到2023年成为开源AI的王,再到今年用智能眼镜叩开新一代AI硬件的大门。扎克伯格在这三年之间完成了一项几乎不可能的绝地反击。


这期间他的两个重要决策:做开源AI和开发轻量级智能眼镜,都在今天的Connect上开花结果。


从对搭载了AI功能的雷朋眼镜的展示中,我们确实看到了眼镜这一载体在AI 时代的优势:它既能够利用语音调用大模型,更能最直接的利用起多模态AI的潜力。直接的“看”比起用手机“扫”在用户体验上要自然的多。而这种直接很可能会决定下一代智能设备的转移。


最后发布的Orion,更是一个承载着AI空间计算设备最终形态野心的未来之作。比起厚重不适的Vision Pro,小扎的轻量化MR愿景更像是空间计算的未来。而现在这个愿景已经有了雏形。如果AI时代的智能设备迁移注定发生,比起AI Pin之类的小打小闹的尝试,Meta才是最接近其门槛的公司。


如果和一个身处2022年的人聊起这一切,他一定不会相信,扎克伯格这个看起来有点轴的技术宅,他真的信守承诺,带着我们离元宇宙的入口越来越近。


文章来源“腾讯科技”,作者“吴彬 郝博阳”


关键词: AI , AI眼镜 , Llama , Meta Connect
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales