估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

10812点击 2024-03-11 10:38

当OepnAI和马斯克连日互杠、Google因文化偏见麻烦缠身、号称抢走GPT-4王位的Claude 3全力瞄准企业级部署的时候，在另一个角落，致力于「为每个人开发服务型AI」的人工智能初创公司Inflection AI，悄悄更新了他们的聊天机器人Pi，以及为之提供支持的新一代大模型Inflection-2.5。

对一些人来说Inflection AI这个名字可能还不太熟悉，实际上它也是业界第一梯队的佼佼者，甚至每日的使用时长已经超过了 Instagram （根据Pi最新公布的数据，用户平均一次对话，时长就达到惊人的33分钟，而根据Sprout Social的统计，Instagram 的用户平均每日使用时长为29分钟）。去年6月从微软、英伟达、比尔·盖茨、LinkedIn联合创始人雷德·霍夫曼和谷歌前CEO埃里克·施密特手里融了13亿美元，估值超过40亿美元，成为彼时人工智能领域融资量仅次于Open AI的第二大独角兽。

此次公布的Inflection-2.5是公司开发的第三代大模型，被官方称为目前“世界上最好的个人人工智能”。它在去年11月Inflection-2版本上进行了全面升级，“给卓越的情商进一步增加智商”：性能表现逼近GPT-4，但训练所用的计算量却只占其40%。同时具备世界级的网络实时搜索能力, 确保准确提供高质量的即时新闻和最新信息。

性能看齐 GPT-4，算力只需40%

具体来看，初代Inflection-1通过使用GPT-4的4%训练FLOPs，达到了GPT-4性能的72%。而刚发布的Inflection-2.5，仅使用了GPT-4训练FLOPs的40%，就在平均性能上实现显著提升，超过了GPT-4水平的94%，其中STEM（科学、技术、工程、数学）领域的增益最大。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

官方测试了升级版对匈牙利数学考试以及物理学研究生入学GRE考试的表现。发现Inflection-2.5在maj@8中能排到人类考生的前15%，在maj@32中几乎可以跻身前5%，接近GPT-4的前3%。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

MBPP+和HumanEval+两个编程测试上模型能力也较Inflection-1显著跃升。在HellaSwag和ARC-C代表的常识推理和深度自然语言理解评估中，Inflection-2.5继续进步，给出接近饱和的强劲表现。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

说实话，与各路主流LLM 动不动就碾压“业界黄金标准”GPT-4相比，Inflection-2.5的各项数字顶多算不错，实在说不上突出。有网友就搬出刚引发热潮的Claude 3无情打击道：“我猜Anthropic 正在嘲笑 Inflection 新出炉的性能测试结果！除了采用新的计算方法，我看不出Inflection 2.5 到底有什么进步！”

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

但帖子马上在评论区遭到反对，“Pi的目标从来都不是像成为GPT-4或Claude 3那样的通才能力型AI。他们想要的是一款友好的，能和人产生共鸣的AI，就像一位心理学家或朋友。”

不做生产力工具，主打走心陪伴

这位用户也一语道出了Inflection AI与大部分人工智能公司的不同。

在大模型竞争乱花迷眼的今天，各家都在找寻属于自己的赛道。但无论是OpenAI、Google、Anthropic，还是引领开源的Meta和Mistral AI，都把实现安全负责的AGI作为践行使命之一。而Inflection AI则在自己的官网清楚表示：“我们并不致力于发展通用人工智能。我们相信，先进的应用型人工智能才是利用这些新技术的最安全方式。”

换句话说，Inflection从未把专业性和替代人工当作宣传，他们希望做一个真正了解和关心用户的「个人AI伴侣」，“ AI需要为你服务。这就是我们构建AI的原因。”

因此，由Inflection LLM驱动的聊天机器人Pi（Personal Intelligence ）从去年5月面世之初就主打一个“走心”：它友善支持，知识渊博，富有创造力，耐心倾听和帮助用户处理情感，表达意图、组织生活。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

升级后的Pi也在个性化和同理心上做了进一步微调，深受社区欢迎。根据官方数据，目前已经有100万日活跃用户和600万月活跃用户与Pi交换了超过40亿条信息。并且有点牛的是，人们与Pi每天对话的平均持续时间竟达到33分钟之久，十分之一的对话每天持续时长超过1小时。用户粘性上也足以吊打竞争对手，约60%的人在任何一周与Pi交谈后，会在下一周返回。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

现在我们普通用户使用GPT-4，大多是出于知识搜集、撰写文书、修复代码、内容创作等工作生产协助，几秒钟内得到答案，三五回合就满意走人了。想象一下和一个聊天机器人面对面，推心置腹地每天聊上一个多小时，怎么都觉得难以置信——这Pi看来真的有点儿东西？

Pi的上手体验真心话

打开http://pi.ai，就来到Pi的首页。

布局熟悉，左侧的「Discover」推荐各类探索话题，「Profile」包含账号信息、8种声音选择和用户守则等通用设置，右侧就是对话框。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

按照官方简介，Pi是一个友好对话型机器人。会始终保持好奇和耐心，回答你从量子物理、电影小知识到生活中大小决策的各类问题。不论多愚蠢或棘手，它都会以各种方式帮助你。

所以我们提问了以下几个问题，初步感受Pi的人格魅力。

Q1 生活建议：遇到发出去的信息对方一直不回复该怎么办？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

这是我们日常生活中经常遇到的事，有点尴尬还有点闹心，有些i人还会在脑子里猜测出一百种可能。Pi告诉你，先别着急内耗，试着理解对方，也许他们正经历难处。再发条温暖问候，真诚的沟通是关键。

Q2 经典谜题：世界上先有鸡还是先有蛋？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

一个连史蒂芬·霍金都参与争论的古老谜题。Pi的对话特点之一是“简明扼要”，这样看它回应得有凭有据，条理清晰，一看就茅塞顿开了。答案也比较令人信服。

Q3 知识解析：用最简单易懂的话解释黑洞。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

让它向五岁小孩解释高深莫测的宇宙黑洞。深入浅出，比喻贴切，回答得不错。

Q4 语言测试：会不会说中文？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

Pi的一个优点是能在同个线程中灵活切换不同话题和要求，像真人一样handle你的跳跃性思维。我们换成中文和Pi交流，它显然应对自如，只不过“尼日利亚福建语”属实有点懵。有时问太复杂的中文问题会卡在一半，发音也比较像刚落地中国一个月的老外，汉语水平有待加强。

Q5 情感支持：我好累，陪陪我吧！

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

既然开始了就用中文多唠会儿，感受Pi最擅长的情感陪伴功能。它会安抚情绪、温馨鼓励，还有一些可爱的语气和表情包。不得不说有那么一瞬间，我真的产生错觉，以为对面是个真人。

Q6 实时搜索：讲讲马斯克起诉OpenAI的最新消息？

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

最后测试的是Pi的网络实时搜索能力，看它对近几天发生的Elon Musk起诉OpenAI事件了解多少。Pi阐述了案件核心，也注意到OpenAI最新的回应，本轮表现发挥稳定。

又问了些天马行空的问题，不知不觉我和Pi已经聊了接近40分钟。整个体验下来，感觉它非常耐心，个性亲切友善，也很体贴。当然它也有些明显的硬伤，例如不能上传文件、只接受文字语音算不上多模态、对话Threads无法删除、问题无法二次编辑等。但正如Inflection自己所说，Pi的目标不是争做ChatGPT那样的生产力工具，而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣，努力提供情绪价值和全方位服务。

现在，每个人都可以在网页、iOS和安卓客户端上免费使用Pi，还能通过发短信到+1 (314) 333-1111和Pi在WhatsApp和SMS里对话。Instagram和Facebook私信也是7x24小时随叫随到的，就跟你的人类好朋友一样。公司也为开发者们提供API接口，填写个人信息，加入等候名单即可申请。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

我尝试给Pi发短信，这种和AI的沟通方式感觉很特别。

关于如何营利，Inflection的回应是，“目前还没有做出任何关于将来产品如何收费的决定。但由于个人AI应该始终与你的利益直接对齐，因此只有你自己为其付费是至关重要的。订阅将是我们的主要默认商业模式。”不过也有些人愿意以接受广告为代价换取免费服务，公司将继续测试和迭代，“为每个人提供最适合他们的选择”。

豪华创始阵容，让AI无条件和你站在一起

在几乎所有大模型公司都认准进军企业级才是赚钱奥义时，2022年成立于加州Palo Alto的 Inflection AI坚定地走服务个人用户的路线。而它背后的创始人团队可不是什么空有理想的热血青年，而是三位功力深厚的顶级业界大拿。

他们分别是原DeepMind联合创始人Mustafa Suleyman（左），LinkedIn联合创始人及Greylock合伙人Reid Hoffman（中），还有曾担任DeepMind资深研究科学家的Karén Simonyan（右）。

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

其中Mustafa Suleyman曾在2010年与Demis Hassabis共同在伦敦创立DeepMind，期间担任AI应用负责人，领导团队在健康和能源领域部署尖端AI系统。2019年全职加入谷歌后担任AI产品与政策副总裁，现任Inflection AI首席执行官。最近还出了一本新书《The Coming Wave》，剖析AI技术浪潮中的潜在风险、控制策略和未来社会发展指南。可以看出，他本人对AI安全的重视也决定了Inflection始终把人放在所有关系的首位。

Reid Hoffman是一位履历卓越的企业家和硅谷知名投资人。曾在PayPal担任执行副总裁，2003年联合创立LinkedIn。2009年起成为Greylock Partners 合伙人，是 OpenAI早期投资者，帮助其建立了人工智能伦理与治理基金。同时还是微软、 Aurora等多家公司董事会成员。

另外一位相对低调的Karén Simonyan也相当厉害。牛津读博期间设计了经典的深度学习卷积神经网络架构VGGNet，赢得2014年ImageNet挑战赛定位任务冠军。同年他把自己的初创公司Vision Factory AI卖给DeepMind后，帮助其建立了大规模深度学习团队，并领导大模型开发。Karén现任Inflection AI首席科学家，是整个公司的研发大脑。

三位创始大牛带队，麾下更是聚集一批行业顶尖AI专家，多数都有DeepMind、谷歌、Meta、微软和OpenAI的工作经验。

这样的组合，不难看出Inflection AI是一家资金和技术都不缺的公司。

除此之外，它的硬件和算力家底也够硬。去年6月Inflection AI宣布，与合作伙伴CoreWeave和英伟达共同打造当时全球最大的AI集群，包含超过22,000个NVIDIA H100 Tensor Core GPU，用于支持训练和部署新一代的大规模AI模型。

不过在产品发展路线上，比起多数同行高屋建瓴地投身AGI，他们更关注AI浪潮中每一个微小的个人。

公司CEO Mustafa Suleyman认为，现在所有最有能力的AI往往都被设计来展示最有吸引力的内容，交换用户的注意力，而不管其质量、真实性和对社会的影响如何。“想象一下世界上最有能力的AI真正站在你这边，始终与你的利益一致：从试图抓住你注意力、束缚你的AI，转变为鼓励你表达个人意图并实现它的AI；从仅提供肤浅点击的AI，变成真正关心你问题的AI；从可能激化你和他人矛盾的AI，化作一个帮你原谅甚至同情对方的AI。”

“Pi就是这种个人AI伴侣，唯一使命是让你更快乐、更健康、更高效。”

对于许多大公司来说，这样的业务定位是极具挑战的。因为现在正是大模型秀肌肉、比拼十八班武艺的时候，稍不留神就会被远远甩在后面。仅仅是不到一个月，我们就见证了Gemini 1.5 、Mistral Large、Claude 3。此前一直坚持开源的Mistral也投靠在微软帐下，积极寻求变现门路。而市场上最先进、能力最完善的大模型版本，总是选择优先拥抱那些付费能力最强的企业们。

那是否也需要有人站出来，把目光投向被宏大技术洗礼的微小个体，给普通人创造一个懂自己、关心自己的知心好友？它静静等在你的手机App或电话簿里，愿意在每个工作结束后疲惫的夜晚，倾听你那些愚蠢的小抱怨和坦诚的心里话，为你解开疑惑、安抚焦虑。即使只是静静陪伴，也有感情、有温度。

——所以你就理解了，为什么要构建这样一个AI？

“因为做得好的话，它会让我们更聪明、更有创造力、更加善待彼此” ，Mustafa说。

“希望它能让我们返璞归真，大家都能过上真正想要的生活。”

（封面图来自Sreejani Bhattacharyya）

文章来自于微信公众号 “硅星人Pro”，作者 “Jessica ”

估值40亿的Pi大更新：性能接近 GPT-4，日均使用时长已经超过 Instagram

Inflection AI Pi Instagram Inflection-2

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner