一夜之间,微软的AI全宇宙已经成型。
今日凌晨,在一年一度的2024微软Build大会上,微软CEO萨蒂亚·纳德拉(Satya Nadella)一口气宣布了50多项AI能力更新,覆盖GPT-4o上云、自研Cobalt芯片、团队版Copilot、SOTA小模型等多个方面。
作为一场AI圈“开发者盛宴”,本次微软Build大会的发布主要有以下核心亮点:
1、宣布GPT-4o在Azure AI上普遍可用,并引入Cohere、Databricks、Meta、Mistral等公司以及开源社区Hugging Face的多个大模型,一边手握OpenAI,一边狠抓第三方模型及开源模型。
2、6月马上推出Windows Copilot库,包含40多种型号的模型以及多种开箱即用的本地API。
3、推出42亿参数多模态SLM(小语言模型)Phi-3-vision,支持图像理解与交互;同时提供70亿参数的Phi-3小型模型和140亿参数Phi-3中型模型,支持跨操作系统及云边端运行。
Phi-3-vision开源地址:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
4、推出最新端侧小模型Phi-Silica,专为Copilot+PC中的NPU设计,在SLM中取得SOTA。
5、宣布将通过Windows DirectML提供对PyTorch、WebNN框架的原生支持,开发人员将拥有了一个Web原生的机器学习框架,使其能直接访问GPU和NPU。
6、引入Copilot连接器(Copilot connectors),支持连接业务数据、工作流以及第三方SaaS应用程序,助企业构建和定制Copilot。
7、推出Team Copilot,能扮演会议主持人、记录会议笔记、制作图表、管理工程等多种角色,并扩展出Agent(智能体)能力。
8、Azure AI Studio平台将推出自定义模型功能,同时数据分析平台Microsoft Fabric增加了全新的实时智能功能。
9、向客户开放其自研芯片定制CPUAzure Cobalt预览版,性能最高提升40%。
10、宣布其将成首批提供英伟达Blackwell GPU的平台,发布配备RTX GPU的Copilot+PC;与AMD扩展合作,Azure将成为首个提供加速器ND MI300X V5通用版的云平台。
纳德拉提到,过去一年最突出的(趋势)是开发者如何利用大模型的能力去改变世界。
目前,微软已经建造了三个平台:首先是Microsoft Copilot,成为用户的日常助理,帮助用户采取行动;第二个是Copilot堆栈,帮助开发者更快构建AI应用、解决方案;第三个是Copilot+PC,第一台AI PC。(微软向苹果开火!AI PC全家桶装上GPT-4o,AI实时聊天教你打游戏,高通赢麻了)
值得一提的是,在大会进行了超过2小时的最后时刻, OpenAI CEO萨姆·阿尔特曼(Sam Altman)现身,他透露 新模式和整体智能 将是OpenAI下一个模型的关键,同时速度和成本也很重要。
纳德拉称,微软今天将发布50余项更新,按照Copilot堆栈的结构顺序来解读。
在AI基础设施方面,纳德拉谈道,为贯彻可持续发展,到2025年,微软所使用的能源将100%来自零碳能源。
去年11月,微软发布了首个云上AI超级计算机。现在,Azure的超算能力提升至30倍。
在与英伟达的合作上,双方覆盖了从云、AI平台到App应用的全栈流程。
微软将成为首批提供英伟达Blackwell GPU的平台,在未来几个月将发布配备RTX GPU的Copilot+PC,为游戏玩家、创作者和开发人员提供更高的性能,以应对本地AI工作负载,同时提供微软全新的Copilot+功能。
微软宣布与AMD扩展合作,Azure将成为首个提供加速器ND MI300X V5通用版的云平台,它将提供最佳的GPT-4性价比。
微软Azure Maia也持续更新,其首个集群已上线,正在为Copilot、Azure OpenAI等服务提供算力支持。
微软基于Arm的CPUAzure Cobalt进入公开预览阶段,性能最高提升40%。纳德拉称,Cobalt被用于Microsoft 365中的视频处理和权限管理,已经支持了Microsoft Teams等服务中的数十亿次对话,目前已服务了西门子、Snowflake等企业。
目前已经有超过5万个组织使用Azure AI。纳德拉称,这一切都始于其与OpenAI的战略合作。
微软宣布GPT-4o即日起在Azure AI上普遍可用。这意味着现在任何应用程序、网站都可以变成一个多模态、全双工的会话界面。
比如用户可以在网页中获取Agent的主动询问服务,当得知用户在为露营做准备时会为他提供建议,帮他挑选需要加入购物车的物品。
就在上周,OpenAI推出最新多模态模型的GPT-4o,昨天微软展示了Copilot如何在视频中利用GPT-4o,支持用户分享屏幕或会话以获取Copilot的帮助,无论是辅助游戏、编辑文档还是编程都能胜任。
比如用户在一个游戏中设法制作一把剑,Copilot可以识别用户的屏幕,与用户对话并帮他完成这项游戏任务,比如提醒他“需要一些材料”、“按键盘上的E打开装备库”、“去收集木头、石头等资源”等。
接下来,微软还带来了很多其他模型,包括Cohere、Databricks、Meta、Mistral、 Snowflake等公司的模型都可以在Azure AI获取。微软宣布接下来将从Core42、NTT DATA等平台中引入新的模型。
既要OpenAI,又要Open的AI,微软宣布加强与开源社区Hugging Face合作,将从其引入更多的模型接入Azure AI Studio。
微软不仅在发展大语言模型,还希望领导小语言模型革命。
微软现在正在扩充Phi-3系列小模型的版本,宣布推出具有语言和视觉功能的42亿参数多模态模型Phi-3-vision。它可以对图像进行推理,产生见解并回答图像相关的问题。
微软还将提供一个70亿参数的Phi-3小型模型和一个140亿参数Phi-3中型模型。通过Phi-3,用户可以构建跨Web、Android、iOS、Windows和Edge的应用程序,也可以在本地硬件和云端之间快捷转换。
从基准测试来看,最强开源模型大有易主之势。中杯Phi-3-Medium以14B的参数,性能逼近混合专家模型Mixtral 8x22B和70B参数的Llama 3。
超小杯多模态模型Phi-3 Vision表现也相当出色,以仅4.2B的参数,性能比肩Gemini 1.0 Pro V和Claude-3 Haiku。
今天,微软还宣布推出Phi-Silica这一SOTA SLM,它由专门为NPU和Copilot+PC设计的Phi-3系列构建,提供快如闪电的设备推理和首个Token响应能力。Windows是第一个拥有当下最先进的面向NPU定制的SLM平台。
为了使Windows能够成为构建AI应用程序的最佳平台,微软将于6月推出Windows Copilot库,其中包含多种开箱即用的本地API,以及40多种型号模型,涵盖了从低代码工具到复杂管道,再到完全多模态模型的多个部分。
以Recall体验为例,它依赖于与Windows深度集成的设备模型来捕获屏幕上的上下文,将数据转换为向量嵌入并建立索引,从而支持用户直接回到应用程序过去的位置并进行操作。Edge和Microsoft 365应用程序都已经支持这一功能,很快Recall就会在微软365图表中提取上下文。
Windows Copilot库还提供RAG(检索增强生成)能力,用户可以用它来处理本地数据,在自己的应用程序中使用该能力。
微软宣布即日起,将通过Windows DirectML提供对PyTorch、WebNN框架的原生支持,这意味着Web开发人员终于拥有了一个Web原生的机器学习框架,使其能直接访问GPU和NPU。
此外,微软宣布让微软Teams成为开发人员与AI合作编程的最佳场所,在本周将发布完整的政策公告。
开发者将可以在微软Teams中使用并获取源代码,同时微软宣布推出 “现在见面(Meet Now)”功能,支持Teams团队成员之间在几秒钟内解决问题。此外用户将可以在Teams中使用自定义表情符号。
昨天微软宣布Copilot接入PC,但构建一个强大的AI平台需要的不仅是一个芯片或模型,而是从上到下重构整个系统。
新的Windows Copilot运行时是将Copilot堆栈扩展到Windows系统,Windows Copilot运行时是Windows 11的一个新组成部分。它包括Windows Copilot库、AI框架和工具链,同时它建立在强大的客户端芯片基础上。
Windows Copilot运行时在操作系统方面,用户可以借助Copilot Runtime回溯他们在电脑收件箱中看到的任何东西;照片和绘画方面的应用程序让用户可以使用实时图像生成和一些滤镜效果将想法变为现实。
Copilot是生成式AI时代的第一款热门产品,目前GitHub Copilot已经有超过180万开发者,微软正在授权让开发者都能使用自己的母语访问编程语言和知识。
GitHub Copilot WorkSpace可以根据其对代码库的深刻理解创建规范,然后创建计划,用户就可以执行计划生成代码,这个过程中,从计划到代码,开发者都可以进行编辑,这是一种从根本上构建软件的新方法。微软将在未来几个月内广泛提供这一工具。
同时,微软通过Copilot连接了更广泛的开发人员工具和服务生态系统。
GitHub正在推出第一组由微软和第三方合作伙伴开发的GitHub Copilot扩展的私人预览版。这些新增功能允许开发人员和组织直接在GitHub Copilot Chat中使用Azure、Docker、Sentry等自定义GitHub Copilot体验。
GitHub工程副总裁Neha Batra演示了GitHub Copilot的能力。例如,开发者可以要求它用Java写一段质数测试,但是用西班牙语语音交互。
开发者可以@Azure并询问它可用的资源在哪里
在网页端,开发者也可以让Copilot帮忙更新README文档。
开发人员现在可以在数据层、体验层构建Copilot扩展以进一步自定义Copilot。
纳德拉谈道,Copilot正在深入各行各业,例如68%的市场人员称Copilot帮助他们启动了创意流程、70%的知识工作者称Copilot帮助他们提升效率、在客服场景Copilot使得问题解决速度提升12%……
微软宣布将引入Copilot连接器(Copilot connectors),它能够使用业务数据、应用程序和工作流,帮助企业构建和定制Copilot。企业还可以通过该工具连接第三方SaaS应用程序,包括来自Adobe、Snowflake、ServiceNow等企业的服务。
微软将Copilot从个人助手扩展到团队助手,宣布推出Team Copilot。
它能在团队协作中扮演任何角色,例如扮演会议主持人、记录会议笔记、制作图表、管理工程等。该功能将在今年晚些时候上线。
不仅如此,Copilot还将扩展出Agent(智能体)能力。用户可通过自然语言指令,或选择已有模板,让Copilot化身不同领域的专家。纳德拉说:“我认为这是明年将带来真正改变的关键一步。”
微软可以在所有的Copilot体验以及Microsoft Team中进行切换,开发者只需在SharePoint中单击,开发者的数据、应用、操作等就可以同步。
同时,Copilot扩展可以在任何地方任何设备上运行。Copilot的工作原理是对用户提示进行推理并将其映射到正确扩展,或者使用扩展程序进行更深入对话。扩展程序会提供快速操作的建议,向用户展示相关功能,使得Copilot能实时获取知识。
这些Copilot扩展也可以在团队会议、一对一聊天等各种场景使用。
此外,微软宣布将Windows Volumetric Apps引入Meta Quest头显,将Copilot引入3D虚拟空间。
Azure AI Studio提供端到端的工具解决方案,用于帮助开发者构建、训练、微调AI模型,同时提供了评估AI模型和应用的性能和质量,以及用以检测和组织提示词中是否注入攻击的工具。
模型会有很多具体的自定义用例,微软Azure AI coustom models(自定义模型)功能即将推出,使得开发者可以构建专属自己的相应领域和数据模型。
该平台有五大优势,包括所有人都可以构建自定义模型、输出将特定于域、多任务处理、基准定义的多模态最佳、特定语言能力。
在数据方面,微软为端到端数据分析平台Microsoft Fabric增加了全新的实时智能功能,现已为开发者提供预览版。
在数据层面,为了训练微调模型,微软正在构建从操作、存储到分析的完整数据状态的平台。这其中的核心就是Microsoft Fabric,目前该平台已经有超11000名客户。
Microsoft Fabric中实现了计算、存储以及用户的体验与治理相互统一,并且允许开发者基于该平台在Azure之外的任何地方都可以进行数据处理。
实时智能功能可供无代码能力分析师和专业开发者使用。在该平台中,开发者可以获得有关数据流的实时可操作见解,并用于发现、管理和使用这些事件数据;并提供大量的受管控体验,开发者可以使用开箱即用的连接器从Microsoft和跨云引入数据,简单的拖拽操作就能将相关数据引入到Fabric的目录下。
开发者可以实时分析、探索数据并对其采取行动,微软还推出了新的Microsoft Fabric工作负载开发套件使独立软件供应商(ISV)和开发人员能够扩展Fabric内的应用程序,从而创建统一的用户体验,使这成为可能。
微软正在通过Fabric Workload Development Kit构建新的应用程序平台,集成了空间分析功能,开发者可以使用ESRI的工具和库分析自己的数据。
08.AI模型边际收益递减节点远未达到,要建造更大超级计算机
微软CTO凯文·斯科特(Kevin Scott)谈道,在过去一年中,微软基于Copilot堆栈做了大量工作,既优化了系统,使成本更低、功能更强大,还围绕核心AI平台构建了整个功能、系统、服务和云。
为什么能做到这一点?他称,这是因为微软部署了最多的生成式AI应用程序,拥有自己的Copilot堆栈,并以安全可靠的方式构建它们。
GPT-4o的一大惊人成就是实时响应用户的音视频交互需求,做到自然流畅。背后微软与OpenAI正在追求一个效率点,通过建造更大的超级计算机来打造下一代大模型。
从去年的GPT-4到今年的GPT-4o,对话价格已经便宜了12倍,而且模型的首个token响应速度也快了6倍。
背后,微软也正在从构建网络芯片到数据中心迭代做的全套优化,并基于这些硬件做大量软件开发工作,以真正释放硬件性能。
微软认为一个值得惊叹的事情是,这里没有边际效益递减的迹象。今天微软传达给大家的一个信息是,随着时间的推移事物将以极快的速度变得更强大、更便宜。
再来看看小模型。小模型运行所需的计算成本更低,但更适合在设备上运行,这通常意味着质量缩水。但微软在过去一年发现了一个高效前沿(Efficient Frontier),也就是小模型在场景中实现的质量变得相当高。
沃顿商学院教授Ethan Mollick对此评价道:由于微软正在训练模型,因此他比几乎任何人都更了解更多计算的影响,这值得注意。
在大会最后,OpenAI CEO萨姆·阿尔特曼(Sam Altman)作为特别嘉宾出现在现场。他并未明确预告下一代大模型,而是提到“模型会变得越来越智能,一般来说是全面智能”。
阿尔特曼透露新模式和整体智能将是OpenAI下一个模型的关键,同时速度和成本也很重要。
他同时提到,OpenAI的研发团队为保证GPT-4的安全都足了大量工作,但为了做到真正对齐,他们必须从研究和创建模型到安全系统,从制定政策到如何进行监控都设立不同的团队,这是巨大的工作量,但必须部署并让产品提供给用户使用。Altman对团队一起完成的工作感到非常自豪。
不过对于阿尔特曼的现身,网友们似乎“颇有微词”。在外媒记者提到他的X推文评论区,几乎全都是调侃或“阴阳怪气”OpenAI疑似未经允许使用寡姐音色的评论。(OpenAI又惹大麻烦!剽窃寡姐声音被控诉,不答应就抄)
有网友说:“谁去问问他关于Scarlett Johansson的事?”
还有的配上寡姐动图,说:“来吧,问出那个问题。”
也有网友讽刺道:“这是我们未经许可使用其声音的名人名单。”
正如今年微软Build大会的主题“How will AI shape your future?(AI将如何塑造你的未来?)”,本次微软通过基础设施、模型、软件工具链及应用等多方面50多项更新,让我们更加具体深切地感受到AI给各行各业带来的变化,加速渗透进人们的生活。
纳德拉说,70年前他有两个梦想:计算机能否真正理解我们?计算机能帮助我们将更多的数据进行有效推理、计划和行动吗?他认为现在这两个方面都已经取得真正的突破,Scaling Laws就像莫里斯定律推动信息革命一样,与模型架构一起推动这场智能革命。
如果说一年前微软通过推出Windows Copilot并将GPT-4嵌入Windows操作系统,标志其开建微软AI全宇宙;那么今天微软则通过Copilot的升级及接入各大产品的实践,使得这个AI全宇宙初步成型,并通过提速降价、生态合作等一系列手段,推动产业进入新的洗牌阶段。
文章来源于“智东西”,作者“智东西编辑部”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0