7月5日,36氪携手2024世界人工智能大会,打造了WAIC 2024xAI Partner氪话未来直播间,邀请到了人工智能硬件公司未来智能CTO 王松,讨论AI PC、AI手机与智能助理的发展现状与问题。在对话中,王松表示未来智能致力于深度布局应用层技术,打造个性化服务、智能交互,以及在具体应用场景和关键技术研发等方面的探索。
世界人工智能大会(WAIC)是全球人工智能领域最具影响力的行业盛会之一,自2018年起已经在上海连续成功举办六届。今年WAIC,以“以共商促共享,以善治促善智”为主题,致力于汇聚全球智慧,共同探索人工智能的全球治理及发展。大会吸引了国内外数百款大模型,以及AI赋能各行各业的软硬件产品,展现出全球人工智能发展的最新面貌。
未来智能作为一家致力于将人工智能交互做到真正实用的人工智能硬件创业公司,以AI为基础,聚焦办公会议场景,开创了办公会议耳机品类,并成功让讯飞会议耳机成为当下最为流行的AI办公效率神器。其核心团队大部分成员在AI、在语音识别、语义识别方面的拥有深厚技术积累和领先优势,而这个强大技术团队的领头人,就是未来智能CTO 王松。
在WAIC 2024xAI Partner氪话未来直播间里,36氪主持人沙沙邀请到了王松,并就AI大模型在终端产品上的应用及趋势,展开了讨论。
以下为圆桌对话实录,经36氪整理编辑:
主持人沙沙:大家好,欢迎来到直播间,我是这场的主持人沙沙,现在我们在WAIC的现场,这一场我们邀请到了未来智能的CTO王松。未来智能是一家深耕智能办公领域的AI科技硬件公司。讯飞会议耳机是他们的主营产品,也在5月份刚刚发布了新品。在开始之前,先请王松做一个简单的自我介绍。
王松:直播间的朋友们,大家好,我叫王松。是未来智能的CTO,我工作已经二十多年了,最近几年都在创业。联合创办未来智能这家公司的初衷很简单,就是想要利用智能穿戴硬件,给用户带去更好的体验,无论是办公还是未来的个人的生活。这是我们创立这家公司的初衷。
沙沙:我们之前聊的更多的是B端的应用,这一场可能更多的会聚焦在C端用户,就是我们消费者感知更加明显的产品,包括AIPC、AI Agent。我们可以先聊一下,AIPC这个产品,因为说实话可能很多人还不是很清楚, 6月份的时候苹果也推出了自己apple intelligence,有期待,但是也不是那么的惊喜,很多人还是表示看好的。想请王松再给我们简单科普一下,到底什么是AIPC,跟我们现在个人通用的这个PC到底有什么不一样?
王松:好的。今年2月份美国CES我也去了,CES上有很多AIPC的概念机其实已经出来了。现在我们讲AIPC,从定义上来讲,首先分硬件和软件两个层面去讲。
硬件,其实现在很多普通的PC已经具备条件了,说白了就是要有一张显卡,就这么简单。
更多的是从软件层面来看的。AIPC有一个非常核心的重要的点,就是说OS层面,软件操作系统层面,把LLM大语言模型给融合进去了,集成进去了。
像我们平常在用的包括ChatGPT也好,Midjourney也好,它们都是通过本地的软件,去调用云端的算力来达成的这个效果跟目的。
那AIPC是不需要依靠云端的算力了。
所有的算力全部在本地闭环,这是AIPC非常重要的一个点,就是它必须在本地,OS层面去集成这个LLM的能力。
光在OS层面去集成其实还不够,因为只是操作系统层面,可能对于普通用户来讲,可能没有用。所以更多的还是在软件层面,要去更深度的集成。
这里其实就要提到,你像微软刚刚前一阶段推出的Surface11,它自己的首款的AIPC,推出了一个本地LLM的能力,它的能力就是能够实时的把你所有的操作记录下来,它是通过截屏的方式记录下来,用户可以通过聊天的方式去问,你在什么时候看了什么东西,跟谁聊了什么天,所有的这些东西都可以通过询问的方式去把这个记忆给调出来,然后回答你。
这就是一个非常好的本地的LLM能力的应用,但是关于它的限制我们等会再讲,会聊到。
这个仅仅是一个案例,现在包括AIPC、AI手机很多的厂商是把它们自家的应用给整合进去了,把这个能力整合进去了。这里就不得不提一下限制,很多三方的App,举一个简单的例子微信,微信不可能把它的个人数据开放给操作系统厂商。
所以这个时候怎么去利用本地的能力,比如说我就想在我自己系统的聊天页面里面去直接调用微信的能力,去跟人聊天,这个怎么去达到?这个我们待会再聊,所以关于AIPC的定义很简单,首先要有硬件的支持,要有GPU以及现在专门的NPU。软件层面OS层面,要本地集成LLM能力,包括上层的软件,也会更多的融合LLM能力,这就是AIPC的定义,狭义上的。
沙沙:听下来比如说我作为一个个人用户,我跟电脑的交互,其实会有比较大的改变。比如说可以通过对话就能够让它完成我所有的指令,不需要再去点击打字或者说其他的操作。
除此之外,我们还有其他的交互上的进展吗?
王松:这个可以往远处我们来畅想一下。
其实我自己个人的畅想,包括前几天OpenAI的联合创始人,特斯拉autopilot的主要的技术负责人,在推特上也发了一条推,他说未来的computer2.0的架构,可能没有OS的概念了,就是一个神经网络。
沙沙:就是原来科幻电影里面的那种画面。
王松:你只要跟它说话或者操控就可以了。
因为我们现在无论是在PC还是手机上做的事情,无非就是工作、娱乐、聊天、购物,无非就这么几种,可能就会有人问,这些东西怎么通过一个神经网络去完成呢?
举一个例子,因为现在比如说文生视频这个赛道非常火,像openAI的Sora,比如说未来我们想看一个电影,只要跟这个神经网络说一句,请帮我利用三体这本小说生成一部不超过2个小时的电影。
沙沙:但是这个电影其实是个性化的对不对?
王松:个性化的,每个人看到的电影都不一样,但是从效果上来看,都是现在的好莱坞级别的水准的制作,它的场景、特效、人物的演技、人物的台词、对白,完全给你实时生成。这个未来其实是可预见的。
沙沙:这个场景还是很酷的。不需要买票,也不需要等他们拍摄。
王松:对,包括游戏。有人说游戏怎么玩?也可以给你实时渲染出来。现在其实有人在做了,实时渲染的游戏的场景,人物的NPC的对话,游戏的关卡设计。是可以预想到的。
音乐就更不用说了,那有人说我想刷抖音怎么办?电影都能给你生成了,生成一个短视频还不简单吗?你想看什么样的小姐姐都可以给到你。
有人说想跟人聊天怎么办?其实这个神经网络背后,比如微信的这套服务体系还是在的,有可能呈现出来的用户界面也是个性化实时生成的了,可能依赖于你现在佩戴的穿戴式设备,可能是手机,可能是PC呈现不同的个性化的界面,这都可以实时生成,没有问题,但是后台的服务还在。
这个时候其实跟计算机交互的方式会发生翻天覆地的变化。
沙沙:这个听起来还是很酷的,而且对于我们用户来讲好像每一个人都能够体验到非常不一样的东西,就不像现在什么都是标准化的,是统一的,我看的东西都是一样的。
王松:未来一定是一个完全个性化的世界,这是一定的。
沙沙:我还有一个问题,因为我们用这个大模型工具有一个很大的特点,其实是我们在调校它。我们的提问呀、我们的提问词、我们的反复追问都是最后能够反哺给大模型的,让它变得更加聪明。如果是本地化,本地运营的话,还有这样的效果吗?
王松:这个问题提的非常好。首先就是这个模型,它如果想优化效果,是需要重新训练的,我们讲的微调也好,还有各种各样的技术手段,是要重新跑一遍的。至少现在在端侧上来讲,我认为还不具备这个条件。
因为想要更新这个模型,可能还是需要到云端去,把这个模型通过垂直领域的数据重新训练一遍,可能再下发到端侧上去执行。
所以,这个问题其实至少目前来看,没有看到在端侧上去模型本身做更新的。但是有另外一种手段,比如说通过外接的知识库,举一个例子,比如说我们在聊天的过程当中,产生了很多聊天的数据,这个聊天的数据可能不需要重新运算模型,可能作为本地的知识库,通过现在的一些技术,比如RAG,让这部分的内容成为一个下上文输入到模型当中去。
这其实也是一种手段。
但是这样做可能没有直接去训练模型来的效果好,也是一种临时的解决方案。当然我相信未来一定会有机制去解决的。
沙沙:那我们刚刚聊的可能比较多的是技术层面的,还想了解一点,就是应用。因为我们人工智能它本身也不是一个新词,在上个世纪50年代可能就已经提出了。
现在我们相比于研究这项技术本身,更多的大家都还是在研究这个落地场景,我刚才也提到,我们这个场馆里面有非常多AI+硬件,它的场景其实这两年很热的就是AI+硬件嘛,这里面有机器人,后空翻的机器人,机器狗,还有帮你叠衣服做“马杀鸡”的机械臂,很有趣,甚至还有可以跳舞的机器人。
今天这边的场景会非常非常多,未来智能其实也是做AI+耳机嘛,也是一个硬件。但是说实话,AI+硬件效果可能并没有达到所有人的预期,因为像之前声势非常浩大的AI PIN落地都不是那么的理想。所以也想请教一下王松,怎么看待,因为苹果上个月发了自己的硬件,端侧智能,怎么看它发的这个端侧智能,以及这个产品能不能让苹果更上一层楼?因为说实话这个产品发出以后,网上说有惊喜但没那么多。
王松:我先说苹果发布的这个东西,采用了一个端云结合的方案,端侧跑了一个小的模型,大概是3B的规模,云端有一个更大的模型,手机本地有一个分配机制,简单的一些能力调用本地的模型,本地模型处理不了的交给云端去处理,这是它的一个整体的解决方案。
那首先我认为苹果未来一定会解决好,就是类似AIPC现在的局限性,怎样与第三方的APP更好的融合。相信苹果未来一定会设计一套良好的API的机制,保证这个事情可以运行,既能保护第三方的数据隐私安全,又能利用Siri完成相应的动作,这是我认为苹果未来想要做的事情。
因为苹果想要达成的是说,它提供一个平台,第三方的应用去建设这个生态,这是它想要达成的一个目的,而不是说像现在很多的国内的厂商,自己去把这一整条链路都做了。
主持人:那如果说我们的技术瓶颈都解决了,大家也都用上了这个AIPC,产品在前期刚出来的时候,可能都会有一个市场教育的问题,比如说用户的接受度,用户的消费习惯。如果说AIPC可能在我们教育用户,或者市场适用性上面临什么样的挑战呢?
王松:现有的PC也好,手机也好,我认为它的交互方式不会产生太大的变革。这里不得不提一下AI穿戴式设备,它的未来。
我认为,未来的交互变革一定会发生在这些设备之上。包括现在的智能眼镜、智能耳机,甚至包括智能手表、手环、戒指。这些东西可能会带来一些交互上的变革。因为刚才提到了,人机交互的第一原则是高效,手机、PC的操作已经定式、定性了,如果做一些大的变革,反而可能影响现有的用户习惯,甚至可能会丢失部分的市场份额,这一定不是现在的手机厂商或者PC厂商愿意做的事情。
像刚才讲苹果,在他的手机、PC上做的交互更新并不多,但是在它的vision pro上做了很多的交互的创新,包括眼球追踪,包括手势的捏合。
所以未来其实在穿戴式设备上,可能会带来很多的交互的变革。这是一点。
另外就是我们刚刚畅想的那个终极的形态,可能那个形态出现了以后,会对手机,对PC带来一定的交互变革。但是那个相对来说还是有点遥远。
沙沙:我们保持期待,还是很期待那个场景出现的,就相当于我们原来电视里面的画面,真正的落到现实里。
AIPC还有最后一个问题,就是因为我们现在用大模型工具还是会有幻觉这个问题,因为AIPC相对更智能,我们对它的依赖也会更大,它能够给我们的信息,帮助我们做的决策也会更多,如果它出现幻觉的话,其实对我们个人的影响,应该是会更直接的,作为AIPC可以怎么更好的避免幻觉的问题呢?
王松:这个问题先讲一下现在的我们用到的ChatGPT,或者Midjourney,文生图、文生视频,包括文生文等等这些工具。像ChatGPT也好,Midjourney也好,在平时使用的时候,产生一些幻觉可能你并不在意。
沙沙:有时候因为我们做媒体,经常会查各种文献、资料,会想它这个对不对,要不要再去复核一下。因为我们刚才也说了,交互就是高效嘛,如果都要去复核,对我来讲是不高效的。
王松:对,这个问题的确是。但是我认为,这个问题可能没有那么的致命,因为首先你可以人工去二次复核,它只是给你一个文本,或者图片,不会对你产生一些决策性上的严重的后果。所以可能多交互几轮,或者多去复核一下就能解决这个问题。这是这个层面上我认为不会带来太严重的问题。
更多的严重的问题,比如说我们后面要谈到的AI Agent这个层面,这个可能就要谈到Agent的定义了。
沙沙:对,我们下一个问题可以提前跟大家讲一下。
王松:因为Agent本身有一个非常核心的点,它要帮用户完成某个任务,这个任务可能是真的要执行到底,形成闭环。
沙沙:对,比如说帮我订机票、帮我订酒店,帮我做一个旅行攻略。
王松:这个时候如果出现幻觉,后果是非常严重的。
沙沙:比如说我要去东京,他给我定了一个美国某地的酒店。
王松:对。所以这个时候,怎么去避免呢?因为说实话,现在AI Agent还没有到完全可以落地执行的阶段,前期的探索有很多。比如说现在的AIPC或者AI手机上,要去做这些相应的功能,首先要从产品设计上,要有一根弦,要事先设计好,如果出现幻觉,怎么帮用户避免这个问题。这是对产品经理提出来的要求。就是它要从产品流程设计上,去能避免或者是容错。
沙沙:就是要事先预设一些可能会出错的情况、场景,触发了怎么提醒用户,或者提醒大模型。
王松:现在一些做法,就是AI Agent在做出决策的时候,都会提醒用户,要不要去执行这个动作,必须要经过用户确认才能继续往下走。
但是我觉得更重要的可能是要依赖模型本身的能力的迭代和更新,甚至包在模型外面的这一层所谓的软件或者交互,去约束这个模型,它要输出什么。
其实这个问题还是很大的,也的确影响比较深远,决定了我们未来AI Agent能不能真正落地。
沙沙:刚刚我们已经提到了AI Agent,其实对于C端用户来讲,感触比较大的或者说比较期待的就是AIPC和AI Agent这个产品。未来智能,我们刚才也看到了,这个讯飞会议耳机是今年5月份刚刚推出的,比较大的变化就是升级了AI助理。未来智能也在做自己的会议Agent是不是?
王松:对,可以这么讲。
沙沙:我们最终的期待值是什么呢?希望它是一个什么样的形态呢?
王松:的确是我们在做Agent相关的东西,我们在做一些前沿的探索,我们还是希望,无论是利用现在的耳机,或者说未来的一些软件能力,去帮助用户能够自动开会,自动参加会议,甚至不需要你本人来听,我帮你听,我帮你回答问题,会后帮你总结、生成摘要、发送文件。
沙沙:听起来是挺美好的。但是像人就有一个特点,不参与其中很多事情没有安全感。这是我自己的一个特点,不知道其他人有没有这样的情况。
王松:所以这是一个信任逐步建立的过程,我们可能会通过前期的一些非常小的功能点,不可能一下上一个自动代替你开会的Agent,我相信用户也不敢用。这是一个用户信任逐步建立的过程,先通过一些小的功能点,逐步的让用户对我们的产品越来越信任。上的每一个功能都是可靠的,都是执行完了结果你满意的。
信任逐步建立了以后,在此之上再逐步迭代,最终的形态可能就是我们期望的那个形态。
沙沙:其实行业内也有共识,就是AI Agent可能是我们实现终极AI形态的一个必经之路,但是我们现在都在研究它的应用场景嘛,因为只有它真正落地到应用上,才能够发挥它真正的价值,就像刚刚王松说的,当它成为一个Agent,它是要帮我们去执行具体的指令的,帮我们做具体的任务。
王松:对,垂直每一个场景,我们的会议场景,娱乐场景等等,每一个场景叠加起来,可能能形成一个综合的场景。
沙沙:其实这样对于用户来讲也是有一个慢慢接受以及慢慢去适应的过程。
但是因为我们刚才提到AGI嘛,朱啸虎一直说自己不太相信AGI,但是他又公开发表了言论,而且说未来五年不会有单纯的大模型公司,最多可能就是应用或者云服务公司,不知道王总怎么看呢?
王松:其实这个观点我是认同的,朱啸虎老师说的在未来五年或者五年之后没有独立的大模型公司,为什么呢?他讲的是没有商业模式,没有办法赚钱,因为大模型,我们知道,训练大模型要投入的成本是非常巨量的,海量的。所以你不赚钱,这个公司怎么去运营、维持下去呢?就拿OpenAI举例,它现在也不是一个纯粹的大模型公司了,包括现在在Altman在股权改革,想把OpenAI变成一个盈利公司,而不是之前的非盈利公司。包括它现在在做的事情,面向C端的ChatGPT,有自己的收费模式,包括现在它在B端做了很多事情,给这些B端的公司部署独立的私有化的模型,给他们去微调。所以它在C端、B端都有自己的落地的场景,就是朱啸虎老师讲的,应用和服务。
沙沙:好的,我们今天的直播到这里就结束了,非常感谢王松跟我们分享了非常多不管是技术上的还是市场上的,甚至理念上的干货,也感谢直播间的朋友陪伴到现在,今天是我们在WAIC最后一场直播了,我们也期待明年还能够在这个现场,跟大家见面。
最后提一下,讯飞会议耳机也是有展台的,如果在上海附近的朋友,或者在上海的朋友,感兴趣也可以来看看。
我们今天就到这里结束了,拜拜!
文章来自于“36Kr”,作者 “时氪分享”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales