独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业
9457点击    2025-12-26 15:49

独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业


图片来源:万格智元


当人们还在用“对话更聪明了”来描述大模型的进步时,AI正在从回答问题走向交付结果,而这个过程伴随而来的是token消耗的指数级跃迁。算力需求的爆炸,并不是危言耸听,而是一场正在到来的结构性变化。与算力需求同步增长的,是另一条更残酷的现实曲线:云端推理的成本与不确定性。只要核心供给仍然建立在云端GPU集群、并以按token计费的方式出售算力,那么“用得越多、付得越多”的难题就永远无解。更关键的是,Agent越强、调用越频繁、链路越长,成本越难以预测。于是,一个过去被低估、如今必须被正面回答的问题浮出水面:算力究竟该继续堆在云端,还是应该被重新“分配”到每个人手边的终端?


答案正越来越清晰——端侧必须承担算力负载。原因并不复杂:第一,端侧天然具备成本封顶的优势,用户的硬件一次性投入后,边际推理成本趋近于零;第二,端侧带来响应时间封顶,无需把请求发往云端再等待回传,延迟可控;第三,也是最常被忽略但却十分关键的一点:隐私。云端推理意味着数据、上下文、行为轨迹需要离开设备;而端侧推理让计算留在本地,从系统架构层面实现隐私保护,极大降低个人与企业长期使用Agent的成本。


然而,端侧并不等于阉割。过去的行业共识是:端侧只能跑小模型,性能与体验必须妥协;真正的能力仍得依赖云端最强模型。万格智元要打破的,正是这条旧认知。公司正在打造的cPilot端侧算力引擎,选择了一条更难、却更接近未来的路径:通过自研的非GPU推理引擎,让300亿、500亿等超大模型在性能有限制的消费硬件上高效推理,并把个人电脑、机器人等各类终端设备变成真正拥有大脑的载体——目标是让终端侧出现“终端版贾维斯”。


这条路径之所以成立,关键在于对硬件结构的重新理解。消费级设备并不缺高性能的硬件资源,它缺的是被正确使用的方式:万格智元从推理引擎底层出发,通过自研的算子优化和流式并行的模块调度,把模型推理进行协同拆分与均衡,让“放不下”的大模型放得下,让“放得下”的大模型算得快。


当推理不再被迫依赖昂贵显存与GPU算力堆叠,端侧就有机会用更廉价、更普及的硬件组合去完成过去只能在云端完成的任务。万格智元在底层进行了系统性的算子优化与生态构建——最终把“端侧推理”从概念拉回到可交付的体验。


这套体系带来的突破,是可以被数字直接验证的:300亿参数模型的推理内存开销已做到4GB量级,推理吞吐率可达30 tokens/s。换句话说,在大多数人日常可触达的设备条件下,端侧第一次把“大模型参数量”和“可用的推理速度”同时拉到了一个与云端体验可以对标的区间——本地设备开始具备对标主流云端模型的现实可能。


意义不止在于省钱,而在于“让过去不成立的场景第一次成立”。当成本与延迟同时被显著压缩,Agent才有机会长时间运行、频繁调用、持续迭代,而无需在每一次动作前先计算账单;机器人也才可能摆脱“云端大脑+网络链路”的依赖,在野外、信号差、电梯里等环境依然拥有稳定的离线能力。


从行业视角看,万格智元更像是在做AI时代的“算力供水商”:不是把能力锁在云端机房里出售,而是把算力带回终端,让每个人、每台电脑、每个机器人都能获得可持续、低成本、强隐私的智能。这一成果是由清华大学00后博士王冠博带领万格智元的团队完成的。据了解,公司也于近日完成创立以来第一轮数千万元的种子轮融资,正推动这条“端侧普惠算力”的路线加速落地。


当算力爆炸成为必然,真正决定AI能否走向普惠的,不再只是模型本身,而是“让模型被用得起、用得久、用得放心”的基础设施。万格智元正在回答的,是一个更底层的问题:如何把大模型从昂贵的云端“服务”,变成每个人都能拥有的本地“能力”。而一旦这条路径成立,AI就不再是少数人按次消费的工具,而会成为像水、电一样自然流动的生产力——让更多人用AI创造价值,也让更多新场景与新职业第一次具备经济可行性。


  • 结果交付型的事情,比单纯的技术推导更让我兴奋。


  • 在合适的场景里,找到适合自己的赛道,一个人可以非常高效地创造价值。


  • 未来一定是agent的时代,而agent必须要被“减负”。


  • 只有在本地、在端侧,直接利用用户自己的消费级电脑、消费级硬件去做推理,才能从根本上解决算力负载的问题。


  • 性能足够好,能够解决真实需求,再来谈成不成本低不低。


  • 不是为了跑在端上,而刻意去用一个小模型;而是要把真正的大模型,直接放到了端上来运行。


  • 我们已经通过端侧的方式,在速度和性能上,直接对标了云端的表现。也就是说,你的本地设备可以直接对标云端GPT 4o级别的性能。


01 目标驱动的成长路径——从竞赛少年到清华博士


独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业


图片来源:万格智元


ZP:谢谢冠博接受我们的采访。首先请向大家介绍一下自己,建议可以从读书的时候开始,可以涉及人生的关键节点、比较突出的特征以及各阶段的积累等。


王冠博:简单概述一下我个人的成长经历:我在郑州一中读的高中,高中搞各种数学竞赛和科技类比赛。本科就读于同济大学理科实验班,本科年级综合排名第一保送清华大学计算机学院攻读计算机专业博士,目前博士三年级,研究方向主要是端智能与大模型infra,累计发表近十篇顶会顶刊。博一期间和同学第一次组队创业,目前在做的万格智元是我的第二次创业项目。


稍微展开一下从高中开始讲的话,我高中学的是数学竞赛,那时候算是怀着一腔热血,对理科、对数学本身非常有兴趣,创业这件事情也一直都能调动我的兴奋感和sense。我从小就参加过很多科技发明类的比赛,拿过很多科技竞赛的奖项,这些比赛通常是基于一些现有技术,去做科技展示。那种把纸面上的技术,真正落到材料、装置、产品上的过程,会让我有非常强烈的获得感。这种获得感,要比单纯考一个高分来得猛烈得多。也正是从那时候开始,我逐渐意识到:结果交付型的事情,比单纯的技术推导更让我兴奋。


我本科就读于同济大学理科实验班学专业。当时的想法是希望通过最基础、最底层的学科,去接近我真正感兴趣的方向。但后来我发现,这条路其实更像是一条“曲线”。数学本身离真正的落地应用还是比较远的,最终还是需要回到计算机。所以在2019年大一的时候,我决定要转专业,转到了计算机方向。


当时我为什么会坚定地选择转计算机,而不是其他工科方向,核心原因是我认为人工智能一定是未来。我个人不太希望做那种停留在“象牙塔”里的事情,我更希望做一些真正能够落地、对用户、对市场有价值的东西。而在我看来,离这种目标最近、也最符合未来趋势的,一定是人工智能。虽然在2019年的时候,AI还远没有像今天这样进入大众视野,互联网本身在那时看起来依然是主流方向,但我当时已经有了比较明确的判断。


我认为未来的人工智能,一定是要足够“便民”、足够“智能”的。虽然当时互联网、电商这些还发展得不错,但并没有真正意义上的智能体、机器人,或者后来我们看到的大模型这些形态。


ZP:你提到转到计算机之后,其实一开始的处境并不占优势。那后面你是怎么一步步调整状态、推进下去的?中间有没有发生一些关键的事情?


王冠博:大一的时候,为了转计算机,我其实提前做了一些准备,比如辅修了一些计算机相关的课程。因为如果你不提前辅修,转专业本身都会比较困难。但真正转过去之后,我发现一个现实问题:理科班的成绩体系,在工科这边其实是非常不占优势的。整体来看,理科给分会偏低,而工科的绩点普遍更高。


在这种情况下,我就在想一件事:既然已经决定要走计算机这条路,那就一定要做到最好。当时我的排名是五六十名,而前40名才能保研;如果想去清华,基本上只有第一名才有可能。那一刻我给自己设定的目标就非常明确,那就是既然要做,不管当下是怎样,未来就直接奔着第一名去。


这个目标其实非常难。因为这意味着我在大二和大三阶段,需要疯狂地追赶。我当时大概算了一下,如果要在绩点上追平甚至反超,我每个学期至少要比正常情况多修15个学分,而且接下来的四个学期必须全部拿满绩点,才有可能实现。但我很快意识到,仅靠绩点肯定是不够的。我们学院当时还没有任何一个人能够直博清华计算机系,清华计算机系毕竟是国内计算机领域的顶级院系。所以除了成绩,我还必须同时具备科研、论文和竞赛成果。当这些事情同时推进,我的个人判断是:成绩是基础门槛,竞赛是实力的体现,而科研才是“终局”。


从我下定决心要从五六十名追到第一名开始,基本上每天就是泡在图书馆。那段时间,我每个学期都是满绩点;竞赛方面,大大小小拿了二十几个奖项,其中也有不少国家级奖项;综合排名最终做到了全院第一。大三开始正式系统做科研。半年之内,大概完成了三篇论文,都是在本科阶段完成的。后来顺利保研进入清华。


02 把大模型塞进每台设备,要做AI时代的“算力供水商”


独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业


图片来源:万格智元


ZP:请你向大家简要介绍一下万格智元的产品,主要的功能是什么?主要面向什么用户?


王冠博:我们现在做的是一个端侧的推理引擎,整个团队是由认识七年时间、有极强粘合度和信任基础的同学构建的。这个端侧推理引擎最大的优势在于,它可以让你的电脑、机器人,或者其他各类终端设备,直接在本地推理30B、50B这样的大模型。最终,我们希望实现一种“终端版贾维斯”的效果。也就是说,让智能真正发生在终端侧,而不是完全依赖云端。我们希望打破大家对端侧模型的一个传统认知。很多人一提到端侧,就会觉得只能是小模型,性能一定要被阉割,但其实并不是这样。


第一个非常重要的应用场景是AI PC和机器人。坦率地讲,现在的所有端侧,并没有一个真正意义上的离线“大脑”。它们受限于硬件条件,本身搭载的算力是有限的,很难在本地完成复杂推理。我们做的这个端侧算力引擎,可以有效的实现硬件限制。在端侧实现一种强隐私、低成本、快响应的推理突破。


第二个应用场景是agent,也就是我们做的ToC端产品。我们自己做了一个本地的个人助理,可以理解为纯本地的Claude Code和Manus。过去大家使用云端的产品,本质上都存在隐私、云端算力与token成本的问题,延迟上也都有明显的限制。但现在我们可以在本地,直接运行几十B参数规模的大模型。我们可以基于本地引擎,结合已经验证过PMF的场景,给用户提供性能非常好的本地能力。


ZP:端侧算力引擎是万格智元的核心,请冠博帮我们介绍一下端侧算力引擎行业目前的整体情况。也从你自己的视角出发,帮我们介绍一下整体的行业背景?包括算力需求的爆发、以及端侧算力负载为什么会成为一个关键问题。


王冠博:现在大多数人在做的端侧方案,其实还是基于GPU的优化。但GPU跟当前大量消费级硬件的实际情况,并不是特别匹配。消费级硬件在内存、显存、成本、功耗等方面都非常受限,没有那么多资源,也没有那么高的预算。在这种情况下,如何在消费级硬件上实现有效的大模型推理,其实真正深入去做的人并不多。现在更多还是集中在GPU优化,或者在资源不受限的服务器、一体机上跑模型。但在真正的消费级硬件上,做端侧大模型推理的工作,整体还是偏少的。


我们之所以会想做这件事情,其实是源于我在一年前观察到的一个现象。就是一年前的DeepSeek为什么会火?其实它的核心并不是一个全新的东西,而是加了“深度思考”,让模型的能力一下子变得非常突出。但这个能力本身有一个非常明显的变化:只是在模型中加入了更深入的思考机制,token的消耗量就会成倍增长。不是小幅增长,而是大幅度增长,这是一个非常夸张的变化。


而从更长期来看,大家对大模型的预期,一定不只是一个聊天工具。未来一定是以“结果交付”和“任务交付”为导向的agent。比如说,你让模型帮你完整写一份文档、帮你做编辑,或者帮你订一张机票;再比如你让它帮你写一个完整的工程项目文件,也就是所谓的Claude Code。这种以结果交付为导向的agent,它的token消耗量就不会是五倍、十倍的问题了,而很可能是百倍、千倍,甚至万倍。


一旦进入到这个阶段,算力需求就会发生真正意义上的爆炸。随之而来的,其实是一个隐藏得非常深的算力危机:费用问题、可用性问题,都会变成巨大的未知数。我为了用一个agent,动不动就要花几十美金,这是不现实的。所以虽然在去年的时候,我们还没有正式成立公司,那时候AI应用也没有现在这么多,大家更多还是用大模型做一些基础推理,但我当时就在想,我们必须要提前进入这个赛道。


因为未来一定是agent的时代,而agent必须要被“减负”。我们大概用了一年的时间去做这件事情,而今年整个行业的爆发,其实也反过来印证了我们当时判断的正确性:本地算力负载这件事情,不仅是必要的,而且是非常重要的。


ZP:万格智元在端侧算力引擎这个赛道里选择的是什么细分方向?万格智元创立的初衷是什么?是看到了什么机会?


王冠博:我们创立的最核心初衷,其实非常简单,就是希望让人人都用得起agent,用得起大模型。这是一个非常本质的目标。那问题就在于,怎么样才能让人人都用得起?如果你依赖GPU,这是不现实的。GPU本身就非常贵,不管是造价、成本,还是运维成本,都决定了它不可能成为一个人人可用的基础设施。


但接下来就进入到一个更本质的问题:为什么现在的大模型这么贵?贵的核心原因,其实是按token收费。只要你按token收费,就永远解决不了“用量”这件事情。你用得越多,就一定付得越多,这个模式本身是无解的。而只有在本地、在端侧,直接利用用户自己的消费级电脑、消费级硬件去做推理,你才能从根本上解决算力负载的问题。这样一来,你就可以彻底摆脱按token收费的模式。


当然,从用户角度来说,仅仅解决成本还不够。因为并不是所有用户都会把“便宜”作为第一优先级。对很多用户来说,性能才是最重要的。符合第一性原理的顺序,应该是:先性能足够好,能够解决真实需求,再来谈成不成本低不低。所以我们一开始就没有打算用一些小模型,只是为了让模型“能在端上跑起来”。在我看来,那样的方案一定是非常垂直、非常受限的,它不可能成为真正通用的解决方案。


我们希望做的是:在消费级硬件上,让用户既用得起,也用得上。所以我们一开始就做了一个非常明确的选择:不做3B、7B、8B这种小模型,我们要做的就是30B、50B这样规模的大模型。只有这样,才能在第一步就满足用户对性能的要求。在性能被保证的前提下,我们再去解决长期的成本问题。最终的目标,其实是让每个人都拥有一个开箱即用的、本地运行的大模型能力。


ZP:我想在这里再追问一个问题。在“性能”这一层面上,如果用户对性能有极致要求,他们直接使用云端的大模型,和使用你们在本地运行的大模型,在性能上对他们来说,会有什么差别吗?


王冠博:如果用户对性能有极致需求,首先我觉得,并不是所有任务都需要极致性能,这本身是要根据任务类型来判断的。我承认,在端侧,你的性能和云端最强模型相比,肯定是存在差异的,这一点是客观存在的。但这个差异,我认为会在未来逐渐缩小。


原因在于,开源模型的能力正在快速提升,大家也能明显看到开源模型和闭源模型之间的能力差距,一定是在逐步被追平的。其次,很多任务其实并不需要“院士级别”的能力来完成。你不一定非要一个教授或者院士来帮你解答问题,很多时候,一个博士生或者硕士的能力就已经足够解决问题了。


在这种情况下,大概有80%的任务,用中高端模型就已经可以很好地完成;只有剩下的20%,才必须依赖最顶级的模型。而对我们来说,其实也没必要覆盖100%的场景。只要我们能解决80%的任务,那我们的市场空间和商业价值,就已经是成立的了。


03 全球现象级成果:300亿参数模型仅4GB内存开销,推理速度达到30 tokens/s


ZP:万格智元作为一个年轻的创业公司,已经取得了不错的成绩。请冠博分享下目前公司核心进展,以及在这个过程中克服的主要的困难/做的比较对的事。


王冠博:首先,我觉得我们做了一件具有比较明显划时代意义的事情。目前,我们已经对一个300亿参数模型实现仅4GB的内存开销,并且推理速度可以达到30 tokens/s。这意味着我们已经通过端侧的方式,在速度和性能上,直接对标了云端的表现。也就是说,你的本地设备可以直接对标云端GPT 4o级别的性能。


这相当于,让你的终端设备真正拥有了一个“大脑”。未来在这个阶段,其实已经不太需要再强调“端”和“云”的区分。模型的好坏、性能的强弱并不取决于它跑在云上还是端上,而在于模型本身。我们不是为了跑在端上,而刻意去用一个小模型;而是要把真正的大模型,直接放到了端上来运行


ZP:顺着这个问题往下延申,万格智元现在可以实现端侧模型性能和GPT-4o和Claude 4.0相媲美,这意味着什么?


王冠博:如果从一个比较大的层面来说,这意味着你真正有机会去实现一个属于你个人的“贾维斯”。也就是说,你的电脑本身,就可以成为一个你一句话告诉它,它就能帮你完成任何事情的智能体。再从一个更现实的角度来看,这意味着我们在使用大模型的时候,不再需要依赖云端的在线推理。


如果从更具体、可验证的层面来看,我们也做了一些直观的对比。可以参考这张图:无论是在综合能力表现、生成速度,还是在真实使用场景下的推理效率上,我们自研的本地运行的大模型已经能够做到和主流云端模型处在同一个区间,甚至在部分指标上具备优势。


独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业


图片来源:万格智元


从商业模式上来说,也就是你不再需要按token付费。如果你完全使用本地模型,那么理论上一切模型服务都可以变得免费,或者至少是极低成本。这件事情的意义,并不仅仅是“省钱”。更重要的是,当成本和延时同时被大幅降低之后,很多过去根本不成立的使用场景,才第一次变得成立。你才有可能让一个 agent 长时间运行、频繁调用,而不用在每一次使用前都先计算成本。


除了成本和时间之外,还有一个经常被忽视、但同样关键的变化是隐私。在云端推理的模式下,用户的数据、上下文和行为信息,本质上都需要被传输到外部服务器;而在端侧推理的情况下,数据不需要出端,所有计算都在本地完成。这意味着,隐私能够在系统架构层面得到了根本性保障。无论是对个人用户,还是对企业级场景,这都会显著降低长期使用agent的心理和现实成本。


ZP:目前行业里的竞争情况是怎样的?万格智元的优势和差异化定位是什么?


王冠博:如果只是单纯去做云端的推理加速或者推理优化,我觉得竞争一定是非常激烈的,这一点毋庸置疑。但真正的差异在于:有没有人能在消费级硬件的条件下,用这样的成本和这样的速度,把事情做成。在目前的行业环境里,真正能在消费级设备上实现这种开销水平和性能表现的方案,我们是领先的。


大部分人现在用的电脑可能也就是16GB内存。在这种条件下,怎么把一个300亿参数模型放进去、跑起来,这是一个非常现实的问题。现在市面上几乎所有的方法都是围绕云端服务器,或者大型一体机来做优化的。真正针对消费级电脑硬件做系统性优化的方案,并且速度达到可用量级,其实还没有出现过,而这也正是我们的优势和差异化定位所在。


ZP:除了把产品本身做好以外,还有什么也是非常重要的?


王冠博:在把产品做好之外,公司一定要能活下去。这就涉及到业务本身、融资等问题,这些都是非常重要的。其次,整个公司的伙伴与员工,要有获得感。要让大家觉得自己在做的事情是有意义的,是有价值的,并且认同公司的方向和文化。我觉得企业文化的培养,其实也是非常必要的。


ZP:了解到万格智元完成了创立以来的第一轮的融资,恭喜冠博!能否简要介绍一下这轮融资的情况。


王冠博:我们是完成了来自市场上比较头部的、市场化基金的融资,是一轮数千万规模的种子轮融资。


ZP:你最敬佩的企业家是谁?


王冠博:坦率讲,马斯克一定是其中之一。我觉得他是很多人心目中非常标准的企业家形象:敢想、敢干,而且敢想的事情都能干,敢干的事情都能成。第二个是雷军。我觉得他是一个其实非常“不需要那么努力”的人,却选择了无比努力的创业者。他身上有一种非常连续的创业精神。从我个人的角度来看,他是在不断压住自己已有的成功,去做一次又一次新的尝试。


ZP:对十年后的万格智元和自己有什么期待?


王冠博:首先,我非常希望能够真正实现一个“人人都用得起大模型、人人都用得起算力”的终极愿景。大家经常说,未来的算力应该像电一样便宜。我们真正希望做到的,是让大模型的算力像水一样便宜,甚至像空气一样免费。在这个基础上,通过算力去提供服务,让所有人都能够用上AI,真正实现普惠AI算力这条路线。让更多人可以用AI创造价值,也由此产生更多新的就业机会和生存技能。


ZP:过去一年,AI行业给你留下最深刻印象的一件事/一个人是什么?


王冠博:我觉得最深刻的一件事是Claude Code。我没有想到,大模型的结果交付可以做到这么好。这个产品直接让Anthropic的估值翻了20倍。这也说明,其实现在大模型的能力本身是够的,真正缺的是一个合适的应用场景和清晰的价值。一旦切入了一个真正有创业价值的场景,整个行业和技术能力都会产生质的飞跃。


文章来自于微信公众号 “Z Potentials”,作者 “Z Potentials”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/