# 热门搜索 #
搜索
微软深夜再掀AI生产力革命,奥特曼登台「自曝」新模型!定制Copilot十亿打工人狂欢
7837点击    2024-05-22 13:00


AI生产力的革命,微软怎会缺席?


在今天的开发者大会上,曾经誓要「颠覆」10亿打工人的Copilot,依然是全程的主角。



没想到70年后,还是要靠微软重新定义软件


不仅有Copilot加持的全新AI PC,日常生活助手Copilot,还有为全世界开发者提供的AI工具堆栈。



更惊喜的是,Sam Altman竟然在发布会的最后,被CTO Kevin Scott请上了台!


两人开场先是一波寒暄,然后共同感慨,这简直是疯狂的一周,疯狂的一年!



针对前段时间的OpenAI离职潮,奥特曼似乎用了一些隐晦的话语来暗戳戳回应:「为了让GPT变得稳健、安全,我们做了很多工作。OpenAI 创建了众多团队来确保LLM按预期工作。」


三大杀器


过去的一年半里,世界发生了诸多变化,其中最令Altman本人震惊的事是什么?


Altman表示,数百万开发者是推动过去一年里世界巨变的核心。


从GPT-4 ,再到GPT-4o的发布,尽管模型API推出时间不久,但我从未见过一项技术能如此迅速地得到有意义的应用。


人们正在构建我们从未想过的创新应用,完全展现了开放API的价值所在。



而Kevin Scott也调侃道:看得出来,你们很好地利用了手里的超强超算。



2020年交付的「鲨鱼」级超算训出了GPT-3,接下来的「虎鲸」级超算训出GPT-4,而现在「鲸鱼」级超算微软正交付给OpenAI


奥特曼还表示,新的模态和整体智能将是OpenAI下一个模型的关键。


他预计模型将会变得更智能、更强大,更安全,而且GPT-4o将会速度更快,成本更低。


是的,就像摩尔定律推动信息革命一样,Scaling Law和模型架构一起,改变了我们使用数据、生成数据的方式。



在这些缩放定律的影响下,我们拥有一个新的自然用户界面,这是一个模型,这意味着支持文本、语音、图像、视频作为输入和输出。



Microsoft Copilot,是日常生活中的助手;Copilot stack,则可以让我们构建AI程序、解决方案等。


还有一个重头戏,当然就是昨天发布的全新Copilot+ PC,它直接打破了纪录,成为有史以来最快的AI电脑!


如今,Windows成为了构建AI应用的最佳平台。而这种影响,不啻于Win 32对图形用户界面的意义。



GitHub Copilot「插件商店」首发


继Copilot成为最流行的代码补全工具和「个人助理」之后,微软本次又更新了这个效率提升神器。



微软表示,很多开发者在代码之外花费了75%的时间,比如追踪工作流、以及撰写需求文档和规格说明等。


不仅如此,定位和修复bug的工作往往需要频繁进行上下文切换,开发者在数据库、IDE、代码仓库、监控工具、云平台之间疲于奔命,无法专注于代码本身。


这正是全新GitHub Copilot可以发挥作用的地方。


它可以通过对话的方式将所有流程整合在一起,帮你调用所有工具和平台,开发者只需要专注于IDE界面的核心代码内容,最大限度减少上下文切换。


不仅如此,基于强大的网络搜索和推理决策能力,Copilot还能回答关于开发过程的问题。



比如在下面这个demo中,用西班牙语描述需求,Copilot就可以自动编写出代码,并为Azure上的部署提供建议。



GitHub产品副总裁表示:「使用自然语言编程将继续降低软件开发的门槛。未来,10亿人可以利用GitHub Copilot,以自然语言的方式与开发技术栈中的任何工具集成,在GitHub上构建代码。」



GitHub Copilot支持各种各样的开发工具和平台,包括DataStax, Docker, MongoDB, Octopus Deploy, Pangea, Pinecone, Product Science, ReadMe, Sentry, Stripe以及微软自家的Office全家桶、Azure和Teams。



GitHub产品高级副总裁Mario Rodriguez表示:「我们的目标是使GitHub Copilot成为最集成、最强大、最智能的AI平台。」


在此基础上延伸出的Copilot Workspace更是提高了开发团队使用GitHub管理项目代码的效率。


之前,用户只能通过Git Bash命令行上传项目文件,图形化界面能进行的操作非常有限。


有了Copilot Workspace,各种时间线和代码分支一目了然,上传文件也容易很多。




而且还提供了非常清晰的代码变动可视化界面,让你自始至终都对项目有满满的掌控感。



截止目前,GitHub Copilot仍处于内测阶段,之后将在GitHub插件市场中发布。


不仅如此,对开发者来说,更酷的是——你可以定制自己的Copilot插件!


3种方式,定义自己的Copilot插件


SharePoint


SharePoint是微软开发的用于组织内部存储、管理和共享内容的平台,每天上传数量超过20亿条。



为了减少工作中搜索和筛选内容的时间,微软开发了从SharePoint创建Copilot的功能。


任何拥有SharePoint网站编辑权限的人,只需点击几下就可以自定义Copilot功能,还可以通过Teams聊天框、电子邮件等方式将创建好的Copilot分享给团队中其他成员。



点选好SharePoint中允许访问的内容范围,以及Copilot的身份和行为等信息,它就可以立刻投入工作了。


比如内容回答问题、总结信息或者查找文件,基于你之前授权给它的内容,Copilot可以提供最新、最准确的响应。


想要在SharePoint之外创建自己的Copilot?


没问题!微软还发布了Copilot Studio,提供更灵活的自定义功能。


Copilot Studio



在SharePoint之外,Copilot Studio支持超过1000个数据连接器,方便你将各种数据源导入Copilot。



Copilot Studio依旧采用类似SharePoint中「对话驱动」的界面,你可以像聊天一样描述——想要Copilot有什么样的知识和功能,Copilot Studio就可以立即创建,并支持实时的测试、修改和发布。



为了用户更容易上手使用,Studio中还内置了各种Copilot模板,比如用于组织清晰度的Organizatiion Navigator、用于员工健康管理的Wellness等,未来几个月还会有更多Copilot模板发布。


使用Copilot Studio,你会有一种一切尽在掌握的感觉。


VSCode


如果你是一个高端玩家,更喜欢用代码优先的方式构建插件,也可以使用Visual Studio Code和Teams Toolkit,编写函数来精准定义Copilot的工作流。



Copilot新能力解锁


Copilot早就不止步于代码补全功能,而是已经演变「个人助理」,成为打工人们的效率提升神器,而且与多种工具和平台合作,构建起一套完整的「Copilot生态」。



本次Build大会上,微软又为Copilot解锁了一系列新功能。


Team Copilot


Team Copilot将功能延伸到「个人助理」之外,开始成为团队的一员。


它能承担单独的职责,提升整个团队的工作效率,比如组织并记录会议、跟踪讨论内容等,甚至可以充当项目经理,为成员分配任务并及时跟进ddl。



对于聊天界面中团队成员们的讨论进展,Copilot还能实时更新自己的记录内容。



可以在Microsoft自家开发的Teams、Loop或者Planner等协作办公软件中使用Team Copilot。


这项功能将在今年晚些时候以预览版形式向有Copilot许可证的用户发布。


Agents Copilot


如果Copilot仅仅进化到团队助手,你可能还是小看了微软。


就像用户可以自定义Copilot插件一样,你也可以使用Copilot Studio自定义一个Copilot Agent。



它不再像原来一样被动地等着你问问题或者分配任务,而是变成「事件触发」的智能体,像虚拟员工一样工作并自动执行任务。


这意味着,Copilot Agent不仅需要记忆、上下文推理以及根据反馈学习的能力,而且需要更加主动,能够在后台自发执行任务。


这样的Copilot岂不是会让一大批白领失业?


微软业务应用程序和平台公司副总裁Charles Lamanna在采访中表示,它可以消除一些重复、琐碎的工作,例如数据输入等,也许都是没有人真正想做的事情。


GPT-4o上新,多款基础模型可用


除了Copilot华丽的演示之外,在开篇提到的三个平台中,最核心的是构建最完整的端到端堆栈——Copilot stack。

01:05


其中,最底层是基础设施,然后是基础模型层。


基础设施


为了AI工作负载,微软特意构建了全新的数据中心。



因此,微软可以用每一兆瓦的功率,来降低AI的成本和功耗。



截止2024年5月,Azure超算能力已经实现了30倍的增长!


可以说,他们提供了世界上最先进的AI加速器,开发者可以拥有最完整的AI加速器选择。



从GPT-4到GPT-4o,不仅模型的速度提高了6倍,成本更是便宜了12倍。


而这背后,是微软与英伟达、AMD的深度合作,以及自研芯片的大力推进。



英伟达关键平台产品,都会引入微软的云中。



而说到和AMD的合作,微软是第一个提供最新ND MI300X v5虚拟机的云服务供应商。


无论对于AMD,还是对于微软,这都是一个意义重大的里程碑。



自研Azure Maia 100,只要你用过微软的服务,或多或少都会接触到。



而最新Azure Cobalt也开始进行公开预览了,目前已经为Microsoft Teams等服务提供了数十亿次对话的支持。



基础模型


在基础模型方面,微软与OpenAI展开了深度合作,而现在GPT-4o可以在Azure上进行训练。


一张图,展示了GPT-4o依旧是最强的模型。



而在如此强大的模型的加持下,Copilot甚至已经「进化」到指导我们怎么玩游戏了!


举个例子,你想弄清如何在《我的世界》中制作一把剑,却毫无头绪。


Copilot会从头教你:为了造一把剑,你需要先收集材料。按E键,就能打开自己的材料库了。


Copilot发现,我们缺少制作剑刃的材料,为此,需要收集木材、石头、铁、金或者钻石。



忽然出现的小人,让玩家吓了一跳。


Copilot提示道:这是一场僵尸赛跑,我们需要尽快摆脱它们。要么快速建一座方块塔,或者快速找到一个避难场所,还可以挖到山的另一侧。



此外,微软首次介绍了十分强大的Agent能力。


想露营但找不到合适的鞋怎么办?给它看一眼你的鞋,就能让它给你提意见了。



Agent分析道,这款非常适合夏季远足、让双脚保持凉爽,然而却不是这次的最佳选择。


既然如此,我们就让Agent直接挑一款最合适的。


Agent发现,这次最合适的产品是TrekReady Hawking,它为脚踝提供了支撑,还能在寒冷的山区为脚部提供保暖。然后,它还帮我们把这双鞋添加到购物车中。



当然,除了OpenAI的模型之外,微软Azure平台还将提供多款可用的模型。



并且,微软依旧拥抱开源社区,与Hugging Face合作。



最强小语言模型:Phi-3


除了引入外部模型之外,微软一直以来都在押注小模型,并引领了一场SLM革命。


从去年6月Phi-1面世,到Phi-1.5、Phi-2,再到如今Phi-3,微软小模型已经完成四次迭代升级。



今天,Phi-3家族正式官宣新成员:


Phi-3-vision、Phi-3-small,Phi-3-medium。



其实,Phi-3-small,Phi-3-medium对于每个人来说,或许并不陌生了。


上个月,微软首次亮相Phi-3-mini,经过3.3万亿token训练仅有38亿参数,而且还可以部署在手机上,性能与Mixtral 8x7B和GPT-3.5相媲美。



论文地址:https://arxiv.org/pdf/2404.14219


另外,技术报告中,还首次展示了经过4.8T token训练的7B模型Phi-3-small,以及14B模型Phi-3-medium。



具体来说,Phi-3-small提供了8k和128k上下文,实力与Llama-3-8B-In、Gemma 7B,以及Mistral 7B相当。


而提供了4k和128k上下文的Phi-3-medium,性能可以超越Mistral 8x7B。



而现在,这些模型已经在Hugging Face上发布,开发者们可以下载权重并使用。




多模态Phi-3


真正引人关注的是,Phi-3在今天正式推出了多模态模型Phi-3-vision,有42亿参数,128k上下文。


它可以完成一般的视觉推理任务,比如现场演示中,询问图表中的信息。


甚至,人们还可以使用Phi-3-vision进行OCR、表格理解、一般图像理解等。



值得一提的是,这款轻量模型仅用了一天半的时间,在512块H100上完成了训练。


它使用了500B视觉和文本token,其中「教科书数据集」一直以来是Phi系列模型的训练核心。


这次,Phi-3-vision的训练的图像数据来自,精选高质量图文搭配的内容,还有新创建的「教科书」式的综合数据。


其中包括,图表、表格、示意图、幻灯片等教授的数学、编码、常识推理等。


尽管参数量级非常小,在多模态基准测试中,Phi-3-vision的性能超越了Claude 3 haiku、LlaVa和Gemini 1.0 Pro。


甚至,各项性能非常接近GPT-4V。



一些开发者已经上手体验了,并称令人印象极为深刻。




还有一些开发者们也决定尝试一番。



以上Phi-3模型,不仅可以在云端运行,甚至可以在本地运行。



SOTA小模型Phi-Silica


此外,纳德拉还在今天发布了Phi系列的SOTA模型——Phi-Silica。


微软称,这是一款专为Copilot+ PC设计的33亿参数模型,每秒可以处理650 token的,功率消耗约为1.5瓦。



这就意味着,Phi-Silica不会占用大量算力,并可以释放PC的CPU和GPU来处理其他计算。


另外,它的token生成会重用NPU的KV缓存,并在CPU上运行,大约每秒可输出27个token。


微软表示,「Phi-Silica的不同之处在于,它是Windows首个本地部署的语言模型」。


它针对Copilot+PC NPU进行了优化,可在本地设备上实现超快的推理响应速度。


这是Windows将先进的AI技术直接带给第三方开发者的一个里程碑时,为他们开发出色的Windows原生体验和第三方体验铺平了道路。


Phi-3模型最新的应用,便是微软还和可汗学院联合打造教育模型。


在模型的帮助下,学生们不仅得到了个性化的AI指导,老师们也感受到了自己的价值。



更重要的是,在Phi-3的加持下,能够免费提供给教育工作者的Khanmigo,必将极大地改变美国的教育界。



Windows


Copilot+ PC将重新定义任何一个人在PC所做的一切。



Pavan Davuluri展示了Copilot加持下的玩家,不用谷歌搜索,询问即可通过被卡住的关卡。


通过将Copilot集成到XBox中,可以大幅提升游戏体验。



此外,微软还与Quest联手,将Copilot带进VR世界,并为Quest带来可扩展到3D空间的Windows应用程序。



参考资料:


https://build.microsoft.com/en-US/home#live-stream


文章来源于“新智元”,作者“新智元”


关键词: 微软 , AI , 奥特曼 , Copilot , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/