本文基于数势科技创始人&CEO黎科峰博士,百川智能联合创始人焦可,腾讯研究院副院长刘琼,蓝驰创投投资合伙人、TGO鲲鹏会学员石建平以及实在智能联合创始人、CMO张俊九等五位行业大咖在InfoQ主办的QCon全球软件开发大会的圆桌讨论整理。
作者 | 冬梅
特别鸣谢:感谢数势科技对此次圆桌论坛内容的整理。
在人工智能领域,Prompt Engineering(提示工程)和 Copilot 已经成为了热门话题。然而,最近 Agent 也受到了许多业界领袖的支持。那么,Agent 与 Prompt Engineering 或 Copilot 在本质上有何不同?为什么有这么多人坚定地看好 Agent?未来,Agent 是否是大模型落地的正确方向?本文将探讨这些问题。
本文基于数势科技创始人 &CEO 黎科峰博士,百川智能联合创始人焦可,腾讯研究院副院长刘琼,蓝驰创投投资合伙人、TGO 鲲鹏会(北京)学员石建平以及实在智能联合创始人、CMO 张俊九等五位行业大咖在 InfoQ 主办的 QCon 全球软件开发大会的圆桌讨论整理。
Agent 还是 Copilot?
理解 Agent 的本质
首先来探讨下 Prompt Engineering 和 Copilot 有何不同。Prompt Engineering 是一种通过设计高质量的输入提示来引导 AI 系统生成所需输出的人工智能开发方法。而 Copilot 是一种辅助工具,可以帮助开发者更好地与 AI 系统协作,提高开发效率。这两种方法都在一定程度上实现了人工智能的应用,但它们仍然存在一些局限性。
张俊九认为 Agent 是对底层逻辑的描述,产品化后可表现为各种各样的形式。与 Agent 不同,Copilot 是在软件生态或其自身体系内的各种应用中提供辅助。例如,微软的 Copilot 或钉钉中的魔法棒等功能,它们主要通过底层 API 调用来实现场景中的辅助。而 Agent 则更多地基于底层技术,将大模型与现实世界连接起来。因此,Agent 需要具备上下文记忆、规划执行操作工具等能力。在具体场景中,可能会表现为 AI 魔法棒、百度文心助手等多种形式。
焦可认为 Copilot 的概念在于帮助人们完成工作,而 Agent 在某些场景中可能会替代人类,百川去年 5 月份就提出了 Agent as a Service 的逻辑。后来 Open AI 的 Lilian Weng 提出了 Agent 架构的技术逻辑,她提出,仅有引擎或接口是不够的,还应具备记忆、规划和使用工具的能力。从产品角度来看,目前的 ChatGPT 类产品更像是模型能力的直接展示,不会是最终的产品形态,Agent 架构是落地的必然路径,值得大家深入研究。
石建平从变化的本质提出了他的观点:“对于未来的应用,可能会有根本性变化的东西产生,大家不应该拘泥于“Agent”或“Copilot”的术语称谓,我们更应该去抓住它的本质。”
石建平进一步聚焦上一代的应用和这一代 Agent 的区别,阐述了他对 Agent 的理解。他指出,尽管两者都是软件,包含 component、state 、logic 、interface(组件、状态、逻辑、接口)等元素,但关键的差异在于逻辑和接口的演变,以前的逻辑都是固定的,现在的逻辑在 AI 驱动的软件中变成模型驱动的、动态自适应的;以前的接口 API 也是固定的,任何接口的变化,都需要修改程序,下一代的接口是动态的、更灵活的,可能是自然语言。这是一个根本性的变化,为的是提升软件的智能化和自主提升能力,有可能从单纯的数字大脑转变为具有感知和动机能力的数字人脑。
Agent 是连接大模型和现实世界的“最后一公里”
讨论了这么多关于 Agent 的内容,那么,如此重要的 Agent 在大模型中起到了怎样的作用?刘琼指出 Agent 并非新概念,但随着大语言模型的发展,其潜力和应用场景将得到极大扩展。“Agent 是大模型落地非常必要和可行的路径。首先,它是大模型未来在行业落地中的一个重要应用形态,在从任务到工作的终极目标中,Agent 真正能替代人形成新的生产力,成为我们的数字伙伴的重要形态。其次,Agent 是连接大模型和现实世界,包括许多应用和现实问题的‘最后一公里’。Agent 具备自我决策和学习能力,以及规划、记忆和可扩展工具的能力,使其在特定领域具有无限发展潜力,是大模型实现具体应用的必要途径。”
张俊九认为 GPT 这种聊天模式存在“光说不练”的问题。因此,GPT 刚出来时更多是在 AIGC 等场景中提供能力,如图片、多模态材料的生成,这远远不能解决代替人进行操作的问题。“代替人进行操作可能会将大模型的应用场景更丰富地延伸出去。目前,我认为 Agent 的生命力比单纯的大模型要更加活跃,更具想象力。因此,Agent 一定是目前能看到的,与应用结合较紧密的大模型落地路径。”
黎科峰把 Agent 比喻成一个学了非常多知识的研究生。他学过金融学、法律、计算机、物理、化学等,但真正要让他成为一个业务上的小能手,还有很长的一段距离。真正要把它落到企业端,落到业务端,Agent 需补充数据、知识库和方法论。
“Agent 可以接管除了通用大模型能力之外的所有知识处理、逻辑处理、业务流程。所以,我们依然非常看好 Agent 在 To B 领域能够真正理解业务、进行决策、自动化执行、为结果负责的新范式。”
大模型将颠覆哪些应用?
焦可带着大家一起思考“第一次使用 ChatGPT 时,你们认为它对哪个业务产生了冲击?”焦可认为有三类:信息需求、娱乐需求、交易需求,而最先变革的将发生在信息类业务。原因是大模型是基于高维语义空间的类比,完全不同于以往的关键词精准匹配逻辑。以前的搜索引擎是无法阅读文档,无法解析和理解图片,也没有记忆,无法进行多轮对话,这是革命性的,新时代的到来一定是做到了以前无法做到的事情。因此,他建议大家应关注那些由不可能变为可能的新机会。
石建平建议在那些对人类附加值贡献较高且需要实际物理交互的领域寻找切入点,比如教育和医疗行业,应优先考虑是否能被更好地数字化、智能化。“任何行业在高度数字化之后,成本将逐渐显现边际递减效应。特别是那些高度依赖人力和资源供给的行业,其发展越容易受到限制。人类的智慧永远是有限的,但数字人的供给是无限的。这为行业提供了广阔的发展空间。”
刘琼分享了一个数据,到 2047 年,AI 在所有里程碑性任务列表上达到人类水平的可能性为 50%(其中很多任务是通过 Agent 方式实现的),这比 2022 年做的预测提前了 13 年。
她补充道:“大模型落地可能比我们想象的要快很多。关键要看通用大模型的能力进化,它可以使我们现在完成什么样的工作,或者它能够产生什么样的新供给。”刘琼认为在培训、心理咨询和陪伴等领域,已经产生了一些新的供给,个人助理领域的发展空间和速度巨大。
张俊九认为会是一种百花齐放的场景。个人场景中,AI PC 等技术可简化电脑设置,降低使用门槛。To B 领域中,Agent 能颠覆 RPA。过去,需要描述业务场景及需求,设计业务流程,然后再用低代码实现整个流程。现在一句话就全搞定了,Agent 能理解你想做什么,并且自动生成并执行流程,替代掉对工程师、数据分析师的依赖。“未来,真的很可能每个人都会配备强大的 AI 助理,它能在每一个具体的问题下,做出最合适的选择,马上让你看到不一样的效果。”
Agent 技术作为大模型落地的关键路径,其发展前景广阔。随着技术的不断成熟和应用场景的不断拓展,Agent 技术有望成为推动社会进步和行业发展的重要驱动力。
在全球科技竞争的舞台上,大模型技术无疑是最耀眼的明星之一。在美国,大模型技术发展迅猛,而中国如何在这场科技竞赛中找到适合自己的发展道路?
大模型领域中美差距有多大?
近年来,人工智能技术在全球范围内迅速发展,特别是在大型语言模型和机器学习方法方面取得了突破性进展。在这个领域,计算能力的提升也推动了技术的革命性进步。
作为世界上两大的重要经济体,中国和美国在这场人工智能竞赛中扮演着重要角色。然而,人们不禁要问,在以大模型为代表的 AIGC 时代,中美之间的差距究竟有多大?
事实上,美国在人工智能领域的研究历史悠久,拥有许多世界顶尖的科研机构和高校。例如,OpenAI、Google Brain 等公司和研究机构在大型模型研究和应用方面具有很强的实力。此外,美国还拥有先进的计算资源和设备,为人工智能研究提供了有力支持。
中国在人工智能领域的研究也取得了显著进展。近年来,国内许多高校和企业纷纷加大投入,致力于大型模型研究。一些科技企业在深度学习、自然语言处理等方面取得了重要突破。此外,中国政府也对人工智能产业给予了大力支持,希望通过技术创新来实现产业升级。
尽管中美两国在大模型领域的研究均取得了较大进展,但美国在这一领域仍然具有较大的优势。这主要表现在以下几个方面:
研究基础:美国在人工智能领域的研究历史较长,积累了丰富的经验和知识体系,相比之下,中国在这一领域的研究起步较晚,尽管近年来取得了迅速发展,但与美国相比仍有一定差距。
技术创新:美国在大型模型研究和应用方面拥有许多创新性成果,例如 OpenAI 的 GPT-3 等。这些创新为人工智能领域的发展提供了源源不断的动力。而中国在技术创新方面尚需加大投入,提高研发实力。
计算资源:美国拥有世界上最先进的计算资源和设备,如超级计算机等。这些资源为大型模型研究提供了强大的支持。虽然中国在计算资源方面也取得了一定进展,但与美国相比仍有较大差距。
国际合作与交流:美国在人工智能领域与国际合作伙伴建立了广泛的合作关系,这有助于推动大型模型研究的进展。而中国在这一方面还有待加强,以提高在国际合作中的影响力。
就此问题,石建平发表了他的观点。石建平认为差距确实存在,但并没有想象中的那么大,国内团队的迭代速度非常快。他指出:“领跑者有其优势,但也付出了探索成本。国内追赶的速度会加快,所需的训练资源也会大幅减少。而关于芯片限制、禁运等问题,实际上,大部分真正有资源的大模型团队,在计算资源方面,并没有真正遇到最大的瓶颈。相反,资金方面的压力可能会更大,毕竟大模型是一个烧钱的领域。”
焦可指出闭源模型客观上存在差距,随着技术的发展,对算力的要求越来越大,算力的限制是客观存在的。而开源模型的差距并不大,国内外的开源模型基本上处于同一水平线上。
张俊九则提出了对标准和创新的反思。“我们是否应该将 OpenAI 等国外大模型的发展路径定义为正确的道路,这是值得反思的。目前,我们还在以他们为标杆,但未来可能并非如此。例如,Google 的 Transformer 工程师自己也在反思这是否过于耗费资源。”
“为什么这些事情没有在中国发生,而是在国外?我认为这是最大的差距。最大的差距是我们缺乏从 0 到 1 的创新。同时,前段时间也有人调侃,国外一开源,国内就创新,这既是一种自嘲,也是一种调侃。因此,我认为最大的差距在于创新。”
国内大模型的追赶速度和潜力
正视差距才能不断缩小差距,那么,在这场大模型竞赛中,起步稍显落后的我们还是否有机会追赶上美国?
刘琼认为在大模型应用方面,中国仍有机会。“我们调研中发现许多行业已经开始探索大模型方面的应用,许多研究报告也指出,2024 年将有更多应用落地,并将进一步加速发展。”
同时,她认为国内在形态方面可能比国外稍微领先一些。尤其在端侧应用方面,大模型在更小尺寸或离人们更近的终端应用落地,在中国目前进展较快。许多手机厂商,如小米,已经推出了他们在手机侧的端侧大模型。同时,一些新能源汽车厂商也在进行这方面的探索和落地。
焦可认为国内有多方面的优势,特别是在中文处理方面,国内的开源模型明显优于海外模型。海外模型中文语料库相对较少,例如 LLaMA 2 的中文语料只占 0.13%。而我们从一开始就采用双语教学的方式,因此,国内开源模型在中文处理方面肯定会更好。另外,他认为今年可能会有很大的应用机会。包括 Agent 架构可能会落地。“在模型上面可能要慢一步,但是我们希望能在应用上能够快三步。”
黎科峰博士从大模型的四个重要要素:算法、算力、数据和场景分析。他认为“随着算法的开源,这种差距将会缩小。数据方面,无论是整体数据还是中文数据,我们都需要正视差距。尽管中文在全球知识中的占比并不大,但语言本身没有国界。对于中文数据,中国的大数据量将导致中文理解能力更强。”
黎科峰博士认为场景非常关键。回顾移动互联网时代,中国市场对于场景的理解和深耕始终具有巨大优势。这也反映无论是在移动互联网时代还是 AI 或大模型时代,场景理解和深耕是一个更加明确且持续具有竞争力的重要因素。
张俊九则以实在智能为例,介绍了他们在应用层面的创新。“我们去年 8 月份推出了 TARS 大模型及基于大模型的 RPA-Agent 智能体产品和解决方案。那时,我们也是全球首创,解决了两个重要的技术难题。因此,在应用层面,我们在解决具体问题时,仍有很多变通和技术重构的优势。”
跟随与创新之争
不可否认的是,通过关注和理解国际上大语言模型的发展动态,我们可以学习和吸收先进的技术和经验,尤其是在算法、模型构建、数据处理等方面。例如,ChatGPT 的推出为我们提供了观察超级人工智能雏形的窗口,这有助于我们把握通用人工智能的发展趋势。
然而,单纯的跟随并不能满足中国特有的需求和挑战。中国拥有丰富的语言资源和多元化的文化背景,对大语言模型的要求也更为复杂和特殊。因此,进行创新是必不可少的。创新意味着根据国内实际情况,开发适应中国语言习惯、符合中国市场需求的模型。例如,中国的大模型产品在处理中文文本、理解中国文化梗、响应中国特定场景方面具有独特优势。
同时,中国拥有庞大的数据资源、丰富的应用场景和强大的工程化能力,这些都是我们进行创新的优势。我们可以依托这些资源,开发具有自主知识产权的大语言模型,推动中国在大语言模型领域的自主研发和应用。
那么,我们到底应该更侧重于去借鉴模仿,还是探索一条更适合中国发展的创新之路?
焦可认为根据大模型的 Scaling Laws(尺度定律),可以选择在不同维度上进行增加,可以选择在数据层面、模型深度、模型宽度、时间维度和场景维度等多维度进行增加,不同的维度可以走出不同的道路。但总体而言,只要你是基于 Transformer 架构进行增加,本质上就是一个算力和数据驱动的事情,但是可以选择在不同的维度去 Scale。
石建平指出这是一个非常有争议的视角。“一方面,我们说中国缺少原创,另一方面,我们跟随别人后面。作为投资人和创业者,我们需要有勇气去赌未来有新的机会。虽然不是任何团队都有可能做出全球性的创新,但是当我们看到这样的机会和团队时,我们应该有勇气去赌。否则,我们将永远失去创新的基础。只做 APP 是不够的,我们需要底层的创新。”
石建平认为行业里有很多人在做应用,做 SFT(Supervised Fine-Tun-ing 监督微调),做更深度的调整,解决行业应用场景等问题,这很好。同时,他鼓励有更大梦想的团队能够聚集大量资金去做更 AGI 的底层基础模型,进行更好的创新。
综合来看,中美在 AI 大模型领域存在多方面差距,但中国展现出强烈的信心与决心。面对现状,中国需认识到差距,同时发掘自身优势和机遇。利用算法开源,通过深化应用场景、开发数据集和端侧创新,中国有望实现快速发展。此外,原创性技术创新对长期领先地位至关重要,投资人和从业者在此过程中扮演关键角色,需支持创新并具备战略眼光,助力中国在全球科技竞赛中领先。
文章来自于微信公众号“InfoQ”(ID:infoqchina),作者:冬梅
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales