ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
黄仁勋对话大客户:别期待 GPT-5 了,等 Llama 4 吧!
8185点击    2024-07-31 10:24

今年的图形学顶级会议 SIGGRAPH 2024 上,老黄把扎克伯格请来了。


前者是历史上第三家总市值突破三万亿的企业老板,主要因为 AI。


而后者,正靠着开源模型 Llama 3 一步步在大模型领域建立自己的开源生态。


二人的同台,其实并不意外,Meta 几乎是英伟达最大的金主,占据了英伟达年营收的 1/5。早些时候,扎克伯格承诺,到今年年底,Meta 将拥有 35 万个英伟达 H100。


他们的对话,自然也离不开 AI。从 Meta 的 FAIR 聊起,扎克伯格细数了 Meta 在 AI 上的过往和未来的打算,解释了为何选择大模型开源,以及对于开源的野心,以及对于智能眼镜和头显设备的长远规划。

两人都认为每个人都有一个自己的 AI Agent 才是未来,「我们想赋予所有使用我们产品的人自己创建 agent 的能力」,扎克伯格这么说;「如果你还没有雇自己的 AI,马上去做。」黄仁勋这么说。


01 


AI 会让推荐系统


变得更强大、更好用


Jensen HuangMeta 在AI方面做了很多令人惊叹的工作。我觉得有意思的是,当媒体在报道 Meta 过去几年突然投入 AI 时,好像不知道 FAIR(Facebook AI Research)所做的工作。要知道,我们都在使用来自 Meta 的 PyTorch 框架。你们在计算机视觉、语言模型、实时翻译方面的工作都是开创性的。


我想问的第一个问题是,你如何看待 Meta 在生成式AI方面的进展?你如何将它应用于增强你们的日常运营或引入新的功能?


Mark Zuckerberg:我们在组建 Reality Labs 之前就成立了 FAIR——人工智能研究中心,那时候还是 Facebook,现在已经是 Meta 了。


关于生成式 AI,我认为它最终会使我们所做的所有产品以一种有趣的方式变得不同。可以看看我们已经有的主要产品线,比如 Facebook 和 Instagram 的信息流和推荐系统。Facebook 最初只是和朋友联系,排序一直很重要,因为你知道,即使你只是关注朋友,如果有人发生了一些非常重要的事情,比如你的表妹生了孩子,你希望这条信息出现在你的信息流的顶部。而如果我们把它埋在你的信息流的某个地方,你会对我们非常生气,排序很重要。


但是在过去几年,信息流里有了更多不同的公开的内容,不仅仅是来自朋友的几百或者上千个动态更新,而是数百万条内容,推荐系统变得更为重要。随着生成式 AI 的发展,我认为我们很快就会进入这样一个阶段:你今天在 Instagram 上看到的大部分内容,都是根据你的兴趣从世界上的内容中推荐给你的,不管你是否关注了这些人。


我认为在未来,很多内容也都将使用这些 AI 工具创建。其中一些将是创作者使用工具创建的新内容,有些内容将是为你即时创建的,或者是通过综合现有的不同内容而产生的。


Jensen Huang:我认为很少有人意识到,推荐系统是世界上构想过的最大的计算系统之一。


Mark Zuckerberg:但这是一个完全不同的路径,它不完全是人们谈论的那种热门的生成式 AI,但我认为,它都是 transformer 架构,是一个类似的东西,只是在构建越来越通用的系统。


Jensen Huang:将非结构化数据嵌入到特征中。


Mark Zuckerberg:过去我们为每种类型的内容准备了不同的模型,我们有一个模型用于排序和推荐短视频,另一个模型用于排序和推荐更长形式的视频。然后需要做一些产品的工作,使系统能够更好聚合显示不同类型的内容。


但今天,创建的通用推荐模型越通用,它就变得越来越好。我认为就像是内容的经济学和流动性,你可以从中拉取内容的池子越来越广,而且不会有这些从不同池中抽取内容的低效率。随着模型变得更大更通用,它会变得越来越好。


我梦想有一天,Facebook 或 Instagram 的全部内容,就像一个单一的 AI 模型,它统一了所有这些不同的内容类型和系统,只是在不同的时间框架上有不同的呈现目标,其中一些只是向你展示你今天想看的有趣内容。但有些是帮助你长期建立你的人际网络,你可能认识的人或你可能想关注的账户。


Jensen Huang:这些多模态模型往往更擅长识别模式等。AI 在你的公司中如此深入。你们一直在构建 GPU 基础设施,运行这些大型推荐系统已经有很长时间了。


有趣的是,这些天当我使用 WhatsApp 时,我感觉我在与 WhatsApp 协作。想象我在打字,它在我打字的同时生成图像。而当我回去改变我的词语时,它又生成了其他图像,还是一张相当不错的图片。最近还能把我自己的照片插入到生成的图片里了。


Mark Zuckerberg:是的,那是从上周开始支持的。


Jensen Huang:是的,简直太好玩了。


Mark Zuckerberg:我最近一周花了很多时间和我的女儿们在一起玩这个,想象她们是美人鱼之类的。这很有趣。


很多生成式 AI 的东西将会带来我们过往所有工作流程和产品的大升级。但另一方面,将会有全新的东西可以被创造出来。Meta AI 的 AI 助手可以帮助你完成不同的任务和想法。在我们的世界里,它将会非常具有创造性,非常通用。它将能够随着内容的积累回答任何问题。


我认为,当我们从 Llama 3 模型转移到 Llama 4 及以后。我认为它会感觉不那么像一个聊天机器人,你给它一个提示,它就回应。然后你给出提示,它再回应,就像来回对话那样。我认为它会很快演变成,你给它一个需求,它实际上可以在多个时间周期里工作。有些东西可能会需要几周或几个月的计算任务,然后它就回来告诉你答案。


Jensen Huang今天的 AI,是一种基于回合对话的方式。你说些什么,它回答你。但很显然,当我们思考时,当我们被给予一个任务或一个问题时,我们会考虑多个选项,或者我们可能会想出一个决策树,在脑海中模拟走下这个决策树,我们可能做出的每个决定的不同结果是什么。我们在做规划,在未来,AI 也会做类似的事情。


02 


未来每个人都会有一个


自己的 AI Agent


Jensen Huang:当你谈到你对 Creator AI(创作者 AI)的愿景时,我认为这是一个绝妙的想法。谈谈你关于 Creator AI 和 AI studio 的想法吧。


Mark Zuckerberg:我们之前已经聊过一些,但我们今天会更全面地介绍它。


在我们的愿景里,我不认为未来只会有一个 AI 模型。行业中一些其他公司是这样做的,他们想要建立一个唯一的 AI


agent。我们有 Meta AI 助手供用户使用,但我们的更多愿景是,我们想赋予所有使用我们产品的人自己创建 agent 的能力。我们最终想要使得人工智能能够引入所有内容,快速建立一个业务 agent,无论是平台上数百万的创作者,还是数亿小企业,都能够做到与客户互动,进行销售和客户支持等这些工作。


所以我们现在开始推出的更多的是 AI Studio。它是一套工具,最终将使每个创作者都能建立某种 AI 版本的自己,作为一种代理或助手,关注者可以与之互动。


对创作者来说,首要问题就是一天的可支配时间很少。如果想更多地与关注者互动,会受到时间的限制。同样,如果你的关注者想与你互动,也很困难,因为你没有足够的时间。


所以最好的选择是允许人们创建这些人工 agent,你可以基于你的信息,以你想要的方式训练它,让它代表你。这是一件非常有创意的事情,就像你发布的一件艺术品。它不是是以另一种有趣的方式和创作者互动,就像创作者在社交系统上发布内容一样,能够有代理(agent)来做这件事。


同样,我认为另一种情况是,人们基于不同的用途创建自己的代理。有些是计划完成的定制实用程序,人们进行微调和训练;有些则是娱乐性的。人们创造的这些东西有一些会很有趣,或者会有一点儿傻,这些东西不会在 Meta AI 的助手中出现,但我认为大家还是会很乐意和它们互动的。


我们看到的一个有趣的现象是,人们从 agent 来获得支持和帮助。Meta AI 的一个主要用例,是人们使用它来角色模拟他们将面临的可能沟通困难的社交情形。比如说职场上问经理如何获得晋升或加薪;或者正在与朋友吵架,与女朋友进行诚恳的对话等等。AI 可以进行角色扮演,人们可以看看对话会如何进行,并获得反馈。


但很多人也是只想与 agent 互动,除却 Meta AI、ChatGPT 或其他工具,他们想要创建自己的东西,这也是 AI Studio 发展的方向。我们认为不应该只有一个大型 AI 供人们互动,如果有更多的多样性,世界会变得更好更有趣。


Jensen Huang:听起来很酷。


如果你是一个艺术家,你有自己的风格,你可以用你的风格,你所有的作品,微调一个你的一个模型。现在你可以用 prompt 跟它对话,让它按照你的艺术风格创作一些东西。


你甚至可以给我的 agent 一件艺术品作为绘画、草图或灵感,它可以为你生成一些新的东西。


未来每一家餐厅,每一个网站可能都会有这样的 AI。


Mark Zuckerberg:是的,就像每个企业都有一个电子邮件地址、一个网站以及一个或几个社交媒体账户一样,我认为在未来,每个企业都会有一个与客户对接的AI代理。



而这个东西在历史上一直很难做到。在任何公司,客服可能就是一个独立于销售的组织,但这并不是 CEO 希望的工作方式。只是因为它们彼此需要不同的技能。通常组织是分开的,因为它们是为不同的事情优化的。


我认为这种理想的情况是,AI 是唯一的。作为一个客户,你真的不在乎是一个还是几个。你不想在打算购买东西时和购买的东西出现问题时有不同的反馈流程。你只是想有一个地方可以去沟通,得到你的问题的答案,并能以不同的方式与企业互动。


我认为这也适用于创作者。


Jensen Huang:所有与你的客户的互动,尤其是他们的投诉,将使你的公司变得更好。事实上客户如果都在与 AI 互动,互动的经验和获取的反馈也可以拿来改进 AI 等。


Mark Zuckerberg:这个功能们仍然处于相当早期的 alpha 阶段。但 AI studio 使人们能够创建他们的 UGC 代理,并开始让创作者创建它们的数据飞轮。我对此相当期待。


Jensen Huang:我可以在AI Studio 里用我的照片或者相册对 AI Agent 进行调整吗?


Mark Zuckerberg:是的,我们正在为之努力。


Jensen Huang:我可以给它加载我写过的所有东西,以便将其用作我的 RAG 知识库吗。


Mark Zuckerberg:可以的。


Jensen Huang:好的。这样每次我再回来时,它都会再次加载它的记忆。所以它记得上次离开的地方。我们继续我们的对话,就像什么都没发生过一样。


Mark Zuckerberg:像任何产品一样,它会随着时间变得更好。训练它的工具会变得更好。这不仅仅是关于你想让它说什么。随着时间的推移,你基本上几乎能够像与代理进行视频聊天一样,数据飞轮正在快速旋转。


我认为我们会有大约五年的产品创新时间,弄清楚如何最有效地使用到目前为止已经构建的所有东西。同时,基础模型和基础研究的进展也正在加速,所以这是一个相当疯狂的时期。


03


Meta 想打造一个


开源系统领先的生态


Jensen Huang在上次咱俩的对话中,我们是CEO,是脆弱的花朵,需要很多支持,到这个时候已经很坚强了。


Mark Zuckerberg:我认为我们是行业中两个最长期的创始人。你的头发变灰了。我的只是变长了(笑)。


Jensen Huang是的,如果我知道成功需要这么长时间,


Mark Zuckerberg:你永远不会开始。


Jensen Huang不。我会像你一样辍学,提前开始(笑)。


Jensen Huang:我喜欢你的愿景,每个人都可以拥有一个 AI,每个企业都可以拥有一个 AI。在我们公司,我希望每个工程师和每个软件开发人员都有一个 AI,而且有很多 AI。


并且,你也相信每个人和每个公司都应该能够制作自己的 AI。所以当你开源 Llama 时,我觉得很棒。顺便说一下,我认为 Llama 2 的开源可能是去年 AI 领域最大的事件。


Mark Zuckerberg:我以为是 H100。


Jensen Huang但这是一个先有鸡还是先有蛋的问题。


Mark Zuckerberg:Llama 2 实际上不是 H100 训练来的,而是 A100。


Jensen Huang:是的,谢谢。我说它是最大事件,原因是它的出现激活了每个公司,每个企业和每个行业。突然间,每个医疗保健公司都在构建 AI,每个公司都在构建 AI,每个大公司、小公司都在构建 AI。它使每个研究人员能够再次重新参与 AI,因为他们有一个起点可以做一些事情。


现在 Llama 3.1 已经出来了,我们一起合作部署 Llama 3.1,将它推向世界各地的企业,兴奋程度简直是空前的。我认为它将能够实现各种应用。


你的开源哲学从哪里来?过去你们开源了 PyTorch,现在它是被广泛使用的AI框架。现在你开源了 Llama 3.1,并围绕它建立了一个完整的生态系统。我认为这很棒。但这一切的想法是从哪里来的?


Mark Zuckerberg:我们一直在做很多开源工作。坦率地说,我们在构建像分布式计算基础设施和数据中心这样的东西时,是在其他一些科技公司之后开始的,而且,因为这个原因,当我们构建这些东西时,已经不是竞争优势了


那么我们不妨开放出来,然后我们将从围绕它的生态系统中受益,所以我们有一堆这样的项目。


我认为最大的可能是 Open Compute Project,我们把我们的服务器设计和网络设计,最终还有数据中心设计都公开了。通过让它成为某种行业标准,所有的供应链基本上都围绕它组织起来,这让参与的很多人都节省了投入。所以通过公开和开放,我们基本上已经节省了数十亿美元。


Jensen Huang:Open Compute 也使得 Nvidia HGX 成为可能,适用于每个数据中心。


Mark Zuckerberg:那是很棒的经历。我们对一些基础设施工具也这样做了,比如从 React 到 PyTorch。所以到了 Llama 出现的时候,我们对于为 AI 模型开源已经有了积极的想法。


我看待这个问题有几个角度。一方面,Meta 在过去 20 年构建的东西真的很有趣。一直以来我们面对的最困难的事情之一,就是要通过竞争对手的移动平台发布我们的应用。一方面,移动平台对行业来说是一个巨大的福音,另一方面,不得不通过你的竞争对手来交付你的产品,这是具有挑战性的,


我成长的那个时代,Facebook 的第一个版本是在网络上开放的。当它转移到手机上时,好处是现在每个人口袋里都有一台电脑,问题是可以实现的功能受到更多限制。但这一代计算机的发展有很大的近因偏见,每个人只看移动端,所以苹果靠封闭系统基本上赢了比赛,设定了规则。虽然安卓靠着开源有更多手机设备,但苹果基本上拥有整个市场和所有的利润,Android 在发展方面基本上是跟随苹果的。我认为苹果很明显赢得了这一轮的发展,但并不总是这样。


如果回到上一代,苹果正在做封闭系统,但微软显然是很开放的公司。与苹果相比,Windows 在所有不同的 OEM 上运行,不同的软件和硬件构成一个更加开放的生态系统。Windows 是领先的生态系统。在 PC 这一代中,开放的生态系统赢了。


我有点希望,在下一代的计算机发展中,我们回到一个开放生态系统获胜并领先的状态。封闭的和开放的系统总会共存,我认为两者都有理由存在,都有好处。我不是开放系统的狂热分子,我们也做闭源的东西,并不是发布的所有东西都开放。


但我认为总体上,对于整个行业构建的计算平台来说,如果软件是开放的,那将有很大的价值。这真的塑造了我的开源理念。对于 AI 和 Llama 以及我们在 AR 和 VR 中的工作,我们为混合现实构建的 Horizon OS 是一个开放的操作系统,类似于 Android 或 Windows,我们希望能够与许多不同的硬件公司合作,制造各种不同的设备,我们希望将生态系统恢复到那个水平,使其成为开放的生态。


我们希望将生态系统恢复到上述的水平,而且我对下一代的开放系统获胜持乐观态度。对我们来说,未来 10 或 15 年的一件事就是构建基本技术,实现社交体验。我试图构建太多事情,但被平台提供商拒绝了,所以我对下一个世代的目标是从头构建所有东西。


Jensen Huang:我认为这是一个伟大的世界,有人致力于构建最好的 AI。无论他们如何构建,他们都将其作为服务提供给世界,你想构建自己的 AI 仍然可以。你知道,有很多东西,我更愿意不自己来,而是让别人为我制作,比如这件夹克。所以皮革可以开源这个概念,对我来说没有用。但拥有出色服务、令人难以置信的服务以及开放服务、开放可用性是很好的概念。


Mark Zuckerberg:回到之前的话题,我之前岔开话题了,我要补充一点。我们这样做是因为我们希望这种东西存在,并且我们不希望被某个封闭的模型排除在外,而且希望这不仅仅是一块可以构建的软件,而是一个生态系统。如果我们不开放源代码,它几乎不会运作得很好。尽管这对生态系统有帮助,但我们这样做不是因为利他主义,而是因为我们认为这会形成一个强大的生态系统使我们构建的东西更好。


Jensen Huang:有很多人为 PyTorch 生态系统做出了贡献,数以百计的工程师。仅 Nvidia 就可能有几百人专门致力于使 PyTorch 变得更好、更可扩展、性能更好等等。


Mark Zuckerberg:而且,当某些东西成为行业标准时,其他人会围绕它做工作,对吧? 系统最终都会被优化,用以出色地运行这个标准,这将使每个人受益。同时,它也会与我们正在构建的系统很好地协同工作。这只是这种策略最终被证明有效的其中一种例子。所以我认为开源战略只会是一个好策略。但作为一种商业战略,我认为人们仍然不太了解。


04


「AI 工厂」让每个人都能


构建自己的 AI


Jensen Huang你们的 Llama 3.1 真的很棒,有 405B、70B 和 8B,可以用于生成合成数据,使用较大的模型来教小模型。尽管较大的模型更通用,不那么脆弱,你仍然可以构建小模型。现在你们构建模型的方式是透明的,还有世界级的安全团队、世界级的伦理团队,可以用所有人都知道的方式正确构建它,我真的很喜欢这一点。


我们非常喜欢它,围绕它建立了一个生态系统。


Mark Zuckerberg:你们真是太棒了。每当我们发布新的东西时,你们总是第一个发布、优化并让它运作起来的。因此,我很感激。


Jensen Huang:能说什么呢?我们有优秀的工程师,你们知道的。


Mark Zuckerberg:对,你们总是能迅速地投入到这些事情上。


Jensen Huang:是的。我是个老年人,但我行动很敏捷,这是 CEO 必须做的。


我认识到一件重要的事情,Llama 确实很重要。我们围绕它构建了「AI 工厂」的概念,这样我们就可以帮每个人构建 AI。很多人都有构建 AI 的愿望,对他们来说,拥有 AI 非常重要,因为一旦他们把 AI 放到他们公司的数据飞轮中,他们的业务信息就被编码并且嵌入到 AI 里了。他们不能让那个 AI 飞轮、数据飞轮、经验飞轮出现在别的地方。开源允许他们这样做,但他们其实不知道怎么把这整个东西变成一个 AI。


所以我们创造了这个叫「AI 工厂」的东西。我们提供工具、专业知识、Llama 技术。我们有能力帮他们把这整个东西转变为 AI 服务。当我们完成之后,他们接管它,它的输出就是我们叫做 Nim 的东西。这个 Nim,Nvidia 推理微服务,只需下载,就可以拿走它,在任何他们喜欢的地方运行它,包括在本地。我们有一整个生态系统的合作伙伴,从可以运行 Nim 的 OEM 到 GSI(全球系统集成商),比如 Accenture。我们为 GSI 提供培训,并且跟他们合作创建了基于 Llama 的 Nim 和管道。现在我们正在帮助世界各地的企业做这件事。这是一件令人兴奋的事,它们都是由 Llama 的开源触发的。


Mark Zuckerberg:对,特别是这种帮人们从大模型中提炼出自己的模型的能力,会是一个非常有价值的新事物。但就像我们在产品方面聊到的,至少我不觉得会有一个主要的 AI Agent,每个人都会跟它对话。同样,我也不认为肯定会有一个人人都在用的模型。


Jensen Huang:我们有一个芯片设计 AI,有一个软件编码 AI,这个软件编码 AI 理解 USD,因为我们用 USD 为 Omniverse 编码。还有一个理解 Verilog 的软件 AI,一个理解我们的错误数据库的软件 AI,知道如何帮助我们分类 bug,还会把它们发送给正确的工程师。


这些 AI 里的每一个都是基于 Llama 微调的。我们还给它们装上「护栏」,因为如果有一个用于芯片设计的 AI,那我们对它的政治、宗教之类的观点不感兴趣。因此,我认为每个公司本质上都会为他们的每一个功能专门打造一个 AI,想做到这一点的话,他们就需要帮助。


Mark Zuckerberg:是的。我认为未来的一个大问题会是,在多大程度上,人们只是用上了更大、更复杂的模型,而不是为了特定的功能训练自己的模型。我打赌,最起码,各种不同模型肯定会大规模增加。


Jensen Huang:我们用的是最大的模型。因为我们工程师的时间一直都很宝贵。现在我们正在为了更好的性能优化 405B。大家都知道,405B 的模型不能适应任何单个 GPU,无论多大。这就是为什么 NVLink 的性能这么重要。每个 GPU 都通过 NVLink 连接。


比如,在 HGX 里,有两个这样的交换机,我们能让所有这些 GPU 真正高性能地运行 405B 模型。我们想用最好的模型。其实它在成本效益上可能只差几分钱,又有谁在乎呢?我们只想保证最后呈现质量最好的结果。


Mark Zuckerberg:我认为 405B 的模型大约是 GPT-4 模型推理成本的一半。在那个水平上,它已经相当不错了。人们在设备上做事,或者想用更小的模型的时候,他们会做减法。像是完全不一样的两套服务。


Jensen Huang:我们来假设一下,假设我们雇 AI 设计芯片,时薪大概是 10 美元。如果你一直在用它,而且在一大群工程师之间共享那个 AI,每个工程师可能都有一个跟他们一起工作的 AI,成本其实并不高。但我们付给工程师很多钱。所以对我们来说,每小时几美元就能放大某个人的能力,这真的很有价值。


如果你还没有雇自己的 AI,马上去做。这就是我们要说的。


05 


MR 头显和智能眼镜是


下一代计算平台


Jensen Huang让我们谈谈下一波浪潮。我真的很喜欢你们团队做的事,计算机视觉之类的。我们内部有一个大规模使用的模型,是 Meta 的 Segment Anything Model。现在我们现在正在训练能处理视频的AI模型,这样我们就可以更好地理解世界,为机器人和工业数字化建模我们的用例,把这些 AI 模型连接到 Omniverse,更好地模拟和表现物理世界,让机器人在这些 Omniverse 世界中运行得更好。


现在你的产品,Ray-Ban Meta 智能眼镜,将AI带入虚拟世界的愿景真的很有趣。跟我们讲讲吧?


Mark Zuckerberg:你提到的 Segment Anything 模型,我们其实正在今天的大会上展示它的下一个版本,名叫 Segment Anything 2。它现在运行得更快了,而且现在也能处理视频了,能用来制作很多有意思的视觉效果。


而且因为它会是开放的,在整个行业中也会有更多严肃的应用。比如说,科学家们可以用它来研究珊瑚礁和自然栖息地、景观的演变等等。他们在视频中就能做到这一点,能够零样本学习,能跟它交互,告诉它想跟踪什么。这是相当酷的研究。


Jensen Huang :举个例子,比如说你有一个仓库,里面有很多摄像头,仓库的 AI 正在观察发生的一切。假设有一堆箱子倒下了,或者有人在地上洒了水,或者任何即将发生的事故,AI 识别出来,生成文本,发送给某人,这对我们会很有帮助。


这是使用 AI 的一种方式,而不是在发生事故时记录所有内容,记录每一秒的视频,然后再回去检索。AI 只记录重要的东西,因为它知道它在看什么。所以拥有一个视频理解模型和视频语言模型对所有这些应用来说真的很有帮助。


除了 Ray-Ban 眼镜之外,你们还打算做什么?


Mark Zuckerberg当我们考虑下一个计算平台时,我们把它拆解为 MR 头戴设备和智能眼镜。我认为现在几乎每个戴眼镜的人最终都会升级到智能眼镜。全世界有超过十亿人,这将是一个相当大的市场。



至于 MR 头戴设备,有些人对它在游戏以及其他场景用途很感兴趣,但其他人还不这么认为。我的观点是,这两种设备都会存在于世界上,智能眼镜将成为下一个计算平台的移动电话,并且始终在线。而 MR 头戴设备将更像是你的工作站或游戏机,当你坐下来进行更沉浸式的会话,并想要使用更多计算能力时使用。眼镜因为形状的问题,它们会有很多性能的限制,就像你不能在手机上进行同样级别的计算一样。


Jensen Huang:这些恰好在生成式 AI 发生突破的时候出现了。


Mark Zuckerberg:对于智能眼镜,我们从两个不同的方向着手解决问题。


一方面,我们一直在构建理想的全息 AR 眼镜所需的技术,准备所有需要的定制硅片、定制显示配件等。眼镜毕竟不像其他头戴设备,看起来和用起来像眼镜,现在仍然距离大众日常佩戴的眼镜还有些距离,主要是厚度方面。即使是我们现在制造的 Ray-Ban 眼镜,暂时也没办法将全息 AR 需要的技术都塞进去。但接下来的几年里,我认为我们会越来越接近目标,可能仍然会昂贵,但我认为它已经开始成为流行品了。


我们解决这个问题的另一个思路是,通过与世界上最好的眼镜制造商 EssilorLuxottica 合作,从好看的眼镜开始。他们基本上拥有你使用的所有大品牌。Ray-Ban、Oakley、Oliver Peoples 或只是少数其他品牌,基本上都是 Essilor Luxottica 的。我们一直在与他们合作开发 Ray-Ban。现在已经是第二代。我们的目标是,在外形受限的基础上,尽可能多地放入新技术,我们可能不会达到我们想要在技术上达到的理想状态,但最终它会是很棒的眼镜。



现在,我们有摄像头传感器,可以拍照和录像。可以在 Instagram 上拍照和录像。你可以在 WhatsApp 上进行视频通话,并向其他人直播你正在看到的。我的意思是,它有麦克风和扬声器。扬声器实际上非常好。它是开放式的,很多人觉得它比耳塞更舒适。可以听音乐,可以用它接电话。


但后来发现,这个传感器恰好是用户与 AI 交谈所需要的。这有点意外,如果你五年前问我,我们是否会在 AI 之前实现全息 AR,我可能会说,是的,可能吧。我的意思是,这似乎就是显示技术的进展,对吧?在所有虚拟和混合现实的东西上,我们正在不断地朝着那个方向取得进展。


然后大语言模型的突破发生了。结果发现,我们现在有了相当高质量的 AI,而且在快速提高,这发生在我们拥有全息 AR 之前。这是一个我没有预料到的逆转。我们幸运地处于有利位置,因为我们一直在研究所有这些不同的产品。但我认为我们最终会得到一系列不同价位、不同技术水平的眼镜产品。


基于我们现在看到的 Ray-Ban 眼镜,我猜测在 300 美元价位的无显示屏 AI 眼镜将成为一个真正畅销的产品,最终会有数千万或数亿人拥有。


Jensen Huang所以你将拥有可以互动的 AI,还有刚刚展示的视觉语言理解。还有实时翻译。你可以用一种语言和我说话,我用另一种语言听。


Mark Zuckerberg:显示屏显然也会很棒,但它会给眼镜增加一些重量,而且会使它们更贵。所以我认为会有很多人想要那种全息显示头显。但也会有很多人,他们想要最终会像真正薄的眼镜一样的东西。很多人,他们想要最终会像真正薄的眼镜一样的东西。


Jensen Huang:对于工业应用和一些工作应用,我们需要那个头显设备。


Mark Zuckerberg:我认为消费者方面也是。


Jensen Huang:为什么这么认为?


Mark Zuckerberg :我在疫情期间经常想这个问题,当时每个人都远程工作一段时间,感觉所有时间都花在 Zoom 上。很高兴我们有这个设备,感觉我们离能够进行虚拟会议不远了,我不是真的在这里,这只是我的全息影像。但就像我们真的在那里一样,大家可以一起工作,一起合作。但我认为这对于人工智能来说很重要。


Jensen Huang:我可以接受,如果是一个我不经常佩戴的设备的话。


Mark Zuckerberg:但我认为我们会达到实际上的那个理想目标。在眼镜中,有更薄的框架和更厚的框架,还有所有这些风格。我认为我们还需要一段时间才能在眼镜的外形尺寸中拥有全息眼镜,但我认为把它放在一副时尚的、更厚实的框架眼镜里并不遥远。


Jensen Huang:我注意到太阳镜现在还是脸型大小。


Mark Zuckerberg:这是一个非常有帮助的风格趋势。就像我在尝试成为一个时尚达人一样,这样我就能在眼镜进入市场之前,引领市场的潮流。


Jensen Huang:你的时尚影响力如何?


Mark Zuckerberg:现在来看还为时尚早。


我觉得如果未来业务的一大部分是建造人们愿意佩戴的时尚眼镜,我可能应该开始多关注时尚。没错,我们将不得不退休那个每天穿同样衣服版本的我。


但我的意思是,这就是眼镜的特点,它不像手表或手机,人们真的不想都看起来一样,而且,而且就像是一个平台,成为一个开放的生态系统,我认为人们喜欢的形式和风格将是巨大的,不是每个人都想要像别人设计的那一种眼镜。


Jensen Huang:我认为你说得对。


Mark,我们正在经历的这个时代真是不可思议,整个计算堆栈正在被重新发明。我们如何思考软件?Andrej Karpathy 之前说过 software 1.0 和 2.0,感觉我们现在正处于 3.0 阶段。


现在我们计算的方式,从通用计算到神经网络处理的计算方式,我们现在可以开发的能力和应用在过去是不可想象的。对于生成式 AI,我不记得有其他技术能以如此快的速度影响消费者、企业、行业和科学,能够跨越所有这些不同的科学领域,从气候技术到生物技术再到物理科学。在我们遇到的每一个领域,生成式 AI 都处于这个基础范式转变的中心。


而且,除了我们刚才谈论的东西,生成式 AI 将对社会产生深远的影响。


有人早些时候问我,是否会有一个 Jensen AI?那正是你所说的 Creator AI,我们构建了我们自己的 AI,把我写过的所有东西都加载进去,并用我回答问题的方式对它进行微调。希望随着时间的推移,使用的累积,它会成为一个真正伟大的助手和伙伴,对于很多只想问问题或交流想法的人来说。它将是 Jensen 的一个版本,所以你可以一直来和它互动。


我认为这些都是非常不可思议的事情。你知道,我们一直需要写很多东西。现在只需给它三四个主题,就可以从我的角度出发来创作,这听起来太不可思议了。


我知道建立一家公司并不容易,你把你的公司从桌面转向移动,再到 VR,再到 AI,所有这些设备。真是非常了不起,NVIDIA 自己也多次转型,我完全知道这有多难。而且,你知道,我们两个人多年来都被狠狠地打击过很多次,但这就是想要成为先驱和创新所需要的。


Mark Zuckerberg :如果你继续做之前在做的事情,这不算是转型。但你增加了更多新的支线,我认为同样的事情适用于你们。看着你们的旅程真的很有趣。你们经历了一个时期,每个人都在说,一切都将转移到这些设备上——超级便宜的计算设备。而你们只是继续坚持下去,开发这些可以并行计算的大系统。


Jensen Huang:我们走了另一条路。我们现在不再制造越来越小的设备,而是制造计算机。


Mark Zuckerberg:有一段时间不太流行。


Jensen Huang:超级不流行。但现在它很酷。


我们开始制造图形芯片——GPU。现在当你部署 GPU 时,你仍然称它为 Hopper H100。Mark 的数据中心里有数百个 H100,我想你们快到 60 万个了。你们构建的这些系统,非常难以协调,非常难以运行。而且,你说你比大多数人晚进入 GPU 领域,但你的运营规模比几乎任何人都大,这真是令人难以置信。


祝贺你所做的一切。现在你真的是一位时尚偶像了。


Mark Zuckerberg我还刚开始,正在为之努力。


文章来源于“Founder Park


关键词: GPT-5 , Llama 4 , AI , 大模型 , Meta
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales