图片来源:No Priors
Sarah:今天我们很高兴邀请到Aiden Gomez,Cohere公司的CEO。Cohere是一家2024年估值超过50亿美元的公司,提供基于AI的语言模型和企业解决方案。Aiden在2019年创立了Cohere公司,在此之前,他曾在Google Brain实习,并且是2017年具有里程碑意义的论文《Attention Is All You Need》的共同作者。
Aidan Gomez:很高兴来到这里!
Sarah:也许我们可以从你的个人背景聊聊。你是如何从在加拿大长大,到后来参与撰写全球最重要的技术论文之一的呢?
Aidan Gomez:很多都是运气和机缘巧合。其实我恰好在Geoffrey Hinton教授教学的多伦多大学,他简直是个传奇。几乎所有在那里的计算机科学专业的学生都希望能进入AI领域。所以在某种意义上,我觉得自己是被AI“培养”起来的,一毕业就进入了一个真正看见未来并且想要去创造的环境。从那里开始,都是一连串的幸运偶然。
我设法在Google Brain拿到了一个实习机会,跟Lukasz Kaiser一起工作。后来我才知道,那份实习本来是只面向博士生的。当时他们为我这个实习生举办告别派对,Lukasz问我:“Aiden,你还有几年博士课程要修?”我回答说:“我要回去读大三。”他一愣,说:“我们不招本科生的实习生。”所以,我觉得这一切都是非常幸运的“错误”,最终才让我进入了那个团队。
Sarah:那是什么让你决定创办Cohere的呢?
Aidan Gomez:实际上我在不同地方工作过。我在山景城和Transformer团队一起工作,然后回到多伦多大学,开始和Hinton教授一起工作,之后又去了柏林,开始和Jakob(另一个Transformer论文的作者)合作,接着在伦敦开始了我的博士研究。同时,我也在远程参与Pathways项目,这是一个比超级计算机还要庞大的训练平台。这个项目的想法是将多个超级计算机连接起来,创造一个新的、更大的计算单元用来训练模型。那时GPT-2刚刚发布,我们很清楚技术的发展轨迹,这样的模型表面上是互联网或网页的模型,但肯定会带来一些非常有趣的东西。于是我打电话给Nick和其他的朋友们,我说“我们应该弄清楚怎么打造这些东西”。
Sarah:你能简单地描述一下Cohere的使命是什么吗?然后再讲讲你们的模型和产品吧。
Aidan Gomez:我们的使命是通过帮助其他组织采用技术,使他们的员工更高效,或者转型他们的产品和服务,从而创造价值。所以我们非常专注于企业市场。我们不会做ChatGPT的竞争对手,而是想要打造的是一个平台和一系列产品,帮助企业采纳这项技术,并将其变得有价值。
Sarah:你认为Cohere的成功在多大程度上依赖于核心模型,或者说在平台建设和市场推广方面的投资有多重要?
Aidan Gomez:两者都很重要。首先模型是基础,如果一个模型无法满足客户的需求,那么就没有后续的一切。所以,模型至关重要,它是公司核心。但在企业领域,客户支持、可靠性、安全性这些也都是关键。因此,我们在这两个方面都做了大量投资。
在过去的18个月里,随着越来越多的企业开始使用我们的模型,我们会观察企业想要实现的目标,也看到了他们常犯的错误。这些经验很有帮助,尽管有时候也令人沮丧——看着同样的错误一遍遍发生。但有一个巨大的机会可以帮助企业避免这些错误,并让他们一开始就能够正确实施。所以,这就是我们正在努力的方向。
Sarah:请更具体一些,比如,哪些错误最让你感到沮丧?你们的产品如何能解决这些问题?
Aidan Gomez:首先是企业常犯的错误。所有语言模型都对prompt非常敏感,即数据呈现的方式。每个模型都有自己独特的特点,你和一个模型的对话方式,可能不适用于另一个模型。所以当构建一个带有外部数据库的RAG(检索增强生成)系统时,如何将检索到的结果呈现给模型非常重要。数据在数据库中的存储方式也很关键,格式也很重要。这些细节往往被人忽视。很多人高估了模型的能力,认为它们像人类一样智能,这导致了很多失败。人们尝试实现RAG系统,却不了解如何正确实现其中的独特细节,最终失败。
我们的产品有两种策略。一是让模型更加稳健,模型应该适应不同的数据呈现方式。二是更加结构化地给用户交付,而不只是一个模型。比如,创建更严谨的API,明确规定如何使用模型,像这样的设计可以减少失败的可能性,让这些系统对用户来说更加可用。
Sarah:能给我们一些关于企业中用例的概述吗?
Aidan Gomez:这个应用非常广泛,几乎涵盖了所有行业。常见的用例之一是问答系统,比如与文档互动。例如,如果你有一家制造公司,你可能想为工程师或在生产线上的员工建立一个问答机器人,整合各种工具手册、诊断手册、零件手册等,让工人与机器人聊天来获取信息,而不是翻开成千上万页的书籍去找答案。类似的,企业也会为普通员工建立问答机器人,整合IT常见问题、HR文档、公司相关信息,提供一个集中式的聊天界面,让员工可以快速获取答案。
除此之外,一个很好的例子是医疗行业。医疗公司通常有患者的长期健康记录,这些记录包括患者与医疗系统的所有互动,从去药店到不同的科室检查、医生就诊,甚至跨越数十年,这是一个庞大的医疗历史记录。通常,当患者打电话预约时,他们会告诉接待员:“我的膝盖痛,需要预约。”医生则需要翻阅过去的病历,看看之前是否有类似的记录,可能会遗漏一些两年前的情况,因为他们只有15分钟的时间来审阅病历。但我们可以做的是,将整个病历和患者这次就诊的原因一起输入系统,根据上下文生成一个简要汇报,这样不仅可以显著加快医生审阅的速度,而且能捕捉到医生在短时间内无法发现的关键信息。医生在每次会诊前不可能翻阅20年的病历,但模型可以做到,而且能在不到一秒钟内完成这一过程。
Sarah:你是如何看待企业最终的状态呢?当然没有真正的“终点状态”,你认为一个稳定的平衡状态是什么?即企业如何在专门的AI驱动应用提供商与内部构建的基于AI平台和API的定制应用程序之间进行选择?
Aidan Gomez:最终会是一个混合模式。你可以将它想象成一个金字塔,金字塔的底部是每个组织都需要的东西,就像一个通用的聊天机器人为每个员工回答问题。然后随着金字塔向上,内容会越来越专门化,针对的是公司本身或者它所处行业的特定产品或服务。随着你向上推,这些需求就越不可能找到现成的解决方案来解决。所以,最终还是得自己构建。我们鼓励组织采取一个涵盖整个金字塔的策略。
比如我们曾与一家保险公司合作,他们专注于大型工业开发项目。但是我发现我对这个领域一无所知。事实上,他们的工作是,当矿业公司或其他项目发布一个投标请求(RFP)时,保险公司会派精算师参与这个RFP,进行大量的研究,了解该地区的土地、潜在风险等,然后这变成了一个“竞速”,谁先响应就更有可能中标。所以,关键是时间:这些精算师多快能提出一个经过充分研究的提案?于是我们和他们合作,构建了一个类似研究助手的工具,将精算师常用的所有知识来源,通过RAG整合进去,最终给他们提供了一个聊天机器人。这大大加速了他们响应RFP的速度,帮他们赢得了更多的投标,推动了他们的业务增长。
我们构建的是横向技术,像是一个CPU。你无法知道所有应用场景,因为它的应用非常广泛,实际上能够真正提供深刻洞察和竞争优势的关键,是倾听客户,了解他们需要什么、什么能让他们领先。所以,我们很多工作就是成为他们的思维伙伴,帮助他们集思广益,提出对他们战略性有帮助的项目和创意。
Sarah:普遍来讲,你认为企业采用你们公司的技术的最大障碍是什么?
Aidan Gomez:最大的障碍是信任,尤其是在金融等受监管行业中,安全性是一个大问题。医疗数据通常不会存储在云端,或者即便在云端,也不能离开他们的VPC(虚拟私有云)。因此,数据的管理非常严格,极其敏感。而Cohere的独特优势在于,我们没有将自己锁定在某一生态系统中,而是可以灵活地部署到本地,如果客户需要,可以部署在VPC内外。无论客户需求如何,我们都能触及更多数据(甚至是最敏感的数据),并提供更有价值的解决方案。所以,安全性和隐私保护可能是最大的问题。
除此之外,还有知识的差距。构建这些系统的知识是新的,因为即便是最有经验的人,也不过有几年经验。但这是一个时间问题,最终开发人员会越来越熟悉如何使用这些技术,这可能还需要两到三年时间,才能真正普及开来。
Sarah:企业技术也会经历传统的“炒作周期”吗?对于大多数技术来说,通常会经历一个“失望低谷”的阶段:人们对某项技术充满期待,但最终发现它比预期更难应用,或者成本更高。那么,AI是否也会经历这样的过程呢?
Aidan Gomez:是的,确实会看到一些这样的现象。但老实说,核心技术仍在稳定地进步,每隔几个月就有新的应用被解锁。所以我们还没有进入那个“失望低谷”,我们还处于非常早期的阶段。即使我们今天没有训练出任何新的语言模型,依然有大量的企业“复兴”工作要做。
曾经有人质疑,“是不是炒作过度?这项技术真的有用吗?”但现在它已经进入了几亿人的手中,已经在生产环境中应用,并且正在把这些技术交付给世界,价值已经非常明确。
Sarah:在我们谈论模型和专业化时,你有没有为客户提供在内部使用的一些框架,帮助他们决定应该投资哪种版本的技术?比如,我们有预训练、后训练、微调、检索等传统方式,如何告诉客户如何理解并专业化应用这些技术?
Aidan Gomez:这取决于应用场景。例如,我们与富士通(日本最大的系统集成商)合作,构建了一个日语语言模型。如果没有预训练的介入,是无法有效地为模型添加日语能力的。所以在这种情况下必须从头开始。对于一些更具体的需求,比如改变模型的语气,或者改变它如何格式化某些内容,可以通过微调来完成,即从最终的模型状态开始。因此,这里存在一个渐进的过程,我们通常建议客户从最便宜、最简单的方式开始,也就是微调,然后逐步向后推进。所以先进行微调,然后再进入后训练阶段,比如SFT(监督微调)、RLHF(基于人类反馈的强化学习)。
Sarah:从最便宜的方式逐步推进确实是有道理的。任何企业客户投资于预训练(pre-training)这件事,可能会显得更具争议性。一些专家会说:没有人应该去做这个,企业在计算和数据规模、数据策划工作量,以及进行预训练所需的人才方面的投入根本没有竞争力。你对此有何看法?
Aidan Gomez:如果是一个大企业,并且拥有大量数据,比如数百亿个数据标记(tokens),那么预训练确实是一个可以拉动的杠杆。而对于大多数中小企业和初创公司来说,预训练毫无意义。
但如果是一个大型企业,这应该是一个认真考虑的选项。问题是到底需要做多少预训练,并不是说必须从头开始进行一场5000万美元的训练,而是可以做一个较小的训练,比如500万美元,类似继续预训练(continuation pre-training)工作。这也确实是我们提供的一项服务。
Sarah:聊聊当前技术领域的情况,以及这对Cohere意味着什么。你曾经提到过,“去年模型没有市场”。如何看待这个观点,特别是与竞争的开源模型的崛起相比?
Aidan Gomez:要构建一个有用的模型,确实有一个最低的支出门槛。随着技术的发展,训练模型所需的算力变得更便宜了,数据的获取在某些方向上变得更便宜,但在其他方面却变得越来越困难且昂贵。比如,合成数据的成本已经大幅下降,但专家数据的获取变得越来越难且更加昂贵。如果你愿意等六个月或一年的时间来开发技术,就可以以一个低得多的成本来完成,而不是像那些前沿实验室一样支付巨额费用。
这也是Cohere的一个关键策略:不需要率先构建技术,而是找到一种大幅降低成本的方法,并专注于那些真正对客户有价值的部分,向企业市场提供符合他们需求、且价格合理的产品。
同时,我们仍然需要投入大量资金。与普通初创公司相比,我们需要支付超级计算机的费用,而这些费用每年可能高达数亿美元。因此,这是一项资本密集型的工作,但并不是资本低效。
公司未来发展与AI、AGI趋势
Sarah:我们可以谈谈未来的预测。在scaling law方面,你们处于什么阶段?你预计在接下来的几年里能力提升会有多少?
Aidan Gomez:我们已经走得相当远了,现在正开始进入曲线的平稳部分。我们已经超过了通过简单与模型互动来判断它有多聪明的阶段,所谓的“感觉测试”已经逐渐失去了效用。所以,现在需要做的是请专家在非常具体的领域,如物理、数学、化学、生物学等,来评估这些模型的质量,因为普通人现在无法区分模型生成的差异。
技术仍然有很大的提升空间,但这些提升将主要体现在专业领域。对于企业和他们希望自动化的常规任务,或者他们想要构建的工具来说,技术已经足够好了,或者稍微定制一下就能达到目标。因此我们现在所处的阶段是,有了一些新的解锁,特别是在推理方面。在线推理技术一直是模型的短板,它们之前没有内在的独立思维过程。而现在我们开始有了能够进行推理的模型,当然,OpenAI是第一个将其投入生产的公司,但Cohere也已经做这个工作一年了。
Sarah:现在在整个生态系统中,这一点可能被低估了——从资本支出模式(CapEx)转向消费模式(consumption model)来进行改进。这并不是说它们是完全不同的概念,但当客户不需要为一个昂贵的训练过程支付大笔费用,也不必经历延迟时,他们将会更愿意投入资金去解决问题。
Aidan Gomez:是的,这一点还没有被充分意识到——人们还没有真正评估推理时间计算(inference time compute)对智能的影响。甚至在芯片层面也有影响,比如要构建什么样的芯片、数据中心建设时应该优先考虑什么。如果我们有了推理时间计算的能力,它不需要像密集互联的超级计算机那样的架构,依靠节点分布式处理就能做到很多事情。这是一个新的范式,改变了这些模型能做什么,以及它们是如何做到的。
Sarah:你刚才提到了普通人不会花太多时间去思考“推理”到底是什么,能给大家提供一些直观的理解吗?比如,推理能力让我们能够更好地解决哪些类型的问题?
Aidan Gomez:任何涉及多步骤的问题都会受益于推理能力。例如,某些多任务学习问题可以通过记忆来解决,这也是我们目前让模型做的事情。比如解多项式方程就应该通过多步骤的方式来解决,这是人类解题的方式。我们一直在训练模型记忆输入输出对,并通过像“思维链”这样的技巧来逼出来推理行为,但真正的问题是,下一代模型将从一开始就具备推理能力,这才是自然的。
我们过去训练的模型是基于互联网上的内容,而互联网上的文档其实是推理过程的输出,但推理过程本身是隐性的、不可观察的。人类写文章时,背后经过了数周的思考、修改和删减,这一切推理过程是不可见的。所以第一代语言模型缺乏内在的“自我对话”能力是可以理解的。而现在,我们通过人类数据和合成数据,正在有意识地收集人们的内心思维,要求人们将其思维过程说出来,并进行转录,然后训练这些数据,以模仿问题解决的过程。我对这一点非常兴奋,虽然现在这项技术仍然非常低效且脆弱,类似于早期的语言模型,但在接下来的两三年内,这项技术将变得异常强大,并解锁一整套新的问题解决能力。
Sarah:我还是想问一下:Cohere是如何看待AGI(人工通用智能)的?这对你们重要吗?
Aidan Gomez:AGI对很多人来说意味着不同的东西,我相信我们会建造出真正智能的机器。但是,AGI的概念已经被混淆了,它不是一个二元的、离散的概念,而是一个连续的过程。
Sarah:在行业中有一种定义认为,即使你有一个连续的函数,你也可以在某个点设置一个断点,即这个时候的智能可以替代任何受过教育的成年专业人士。
Aidan Gomez:这像一个客观的清单,即当你勾选了所有这些框之后,你就达到了那个标准。我觉得总能找到反例,这是一个持续的过程。我不认同的是,会有种AGI是超级智能和自我提升引发的“终结者”,最终消灭我们所有人。
我们将是创造丰盈的那一方。我们不需要等待某个神明出现为我们做这件事,而是可以用我们正在构建的技术去实现它。如果你说的是我们会构建AGI,也就是非常有用、通用的技术,能够做很多人类能做的事情,并能灵活地适应不同领域,那我的回答肯定的。如果你指的是我们会造出“神”那样的存在?不,绝对不会。
Sarah:你认为目前的LLMs在某些领域根本就不适合做预测吗?比如像物理仿真这种领域,序列到序列模型能做得到吗?
Aidan Gomez:可能是的,因为物理学本质上就是一系列状态和转移概率,所以可能可以通过序列建模来很好地建模。但是,我确信肯定有一些领域有更适合的模型。如果深入到特定领域,就可以利用该领域的结构,从而去除一些Transformer架构中的不必要的通用性,进而得到更高效的模型。
世界上确实存在不可简化的不确定性,像是构建一个更好的模型也无法帮你解决这些真正随机或不可观察的事情。因此,在我们学会如何观察这些事情之前,它们将永远无法被有效建模。Transformer是一个非常通用的架构,许多事情都可以表述为序列,而这些模型就是序列模型。所以如果你能把事情描述成一个序列,Transformer就能很好地识别其中的规律。但是我也确信,肯定有一些例子可以证明序列建模在某些情况下非常低效。
Sarah:最后一个问题。你之前提到的推理时计算的规模,但市场上并没有真正认识到它带来的巨大变化。现在还有其他市场上没有定价的因素吗?
Aidan Gomez:关于模型商品化的观点有些误解,我并不认为模型正在商品化。你看到的只是价格竞争,大家免费提供、亏本提供、零利润提供,所以看到价格下降就认为价格下降意味着商品化。实际上,世界当前正在进行一场彻底的技术重构,这个过程将持续接下来的10到15年,就像我们需要重新铺设地球上的每一条道路一样,而现在只有四五家公司知道如何制造混凝土。可能今天他们中的一些会免费提供混凝土,但随着时间推移,能够做到这一点的参与者会越来越少。只是因为眼前有一个巨大的任务,而市场上为了推动增长和展现投资回报的压力,将把事态推向某个方向。现在,处于亏损或免费提供这种非常昂贵的技术的状态是一个不稳定的现状。
Sarah:Aiden,非常感谢你和我们一起做这个访谈!
原文:No Priors Ep. 91 | With Cohere Co-Founder and CEO Aidan Gomez
https://www.youtube.com/watch?v=2XRpTZpHjfc
编译:Yueyun Xu
文章来自于微信公众号“Z Potentials”,作者“No Priors”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0