摇滚首席科学家放大招,AppAgentX让10后学习开挂!十年暗战AI贾维斯

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
摇滚首席科学家放大招,AppAgentX让10后学习开挂!十年暗战AI贾维斯
7607点击    2025-03-27 09:58

AI自主进化的同时,还能成为孩子的「第二大脑」。


最近,AI圈子不太平静,这不听力熊Teeni.AI首席科学家张驰带着全新升级AppAgentX强势亮相。


这款新一代自进化手机智能体,一出场就刷屏了。


摇滚首席科学家放大招,AppAgentX让10后学习开挂!十年暗战AI贾维斯


它不仅能像人一样操作手机,还能越用越聪明,堪称「数字生产力的核武器」。


早年在腾讯时,张驰提出的AppAgent可以模仿人类点击、滑动等操作,到如今AppAgentX干活学习两不误,效率直接翻倍。


更厉害的是,AppAgentX还盯上了孩子的学习场景。


整理笔记、生成提纲、记忆学习习惯.....,要成为孩子们贴心的助手,学习的第二大脑。


不仅如此,张驰联手听力熊Teeni.AI试图打造一款面向α世代(10后)的全新智能终端,目标是让AI不仅聪明实用,还能做孩子成长路上的「最佳拍档」。


这么硬核又贴心的技术,到底是怎么练成的?AppAgentX的「进化引擎」里藏着什么秘密?


带着这些好奇,我们特别采访了听力熊Teeni.AI的首席科学家张驰,听他聊聊自己和技术背后的故事,以及他对10后如何拥抱AI时代的独到看法。


一位摇滚科学家的诞生


当然,首先还要从张驰自己的经历讲起。


从小学开始,张驰就对电脑非常痴迷。


初中的时候,自己就做了一个类似仙剑奇侠传的RPG游戏。


当时他花了几周时间,把自己学校的地图1:1地重构出来,把老师和主任都变成了boss,把食堂变成卖装备的地方,整个游戏就是一段校园探险。


另外,他还做了许多多媒体恶搞视频,甚至学习了很多黑客技术。


他最为感慨的就是,当你接触一件新事物,又很有热情的话,做事就会极有动力。


在读博时,张驰又有了类似的感觉。做研究和孩子学习的过程很类似,都是探索一个全新的事物。


当你真正处于巨大的热情之中,这件事情就可以既辛苦又轻松。


辛苦,就像张驰当年做游戏一样,可以从中午干到晚上三点;轻松,是自己看到一件新事物,知道自己有办法去解决,因而充满了热情。


做一件事时,好的习惯,好的思考方式,会对做事的感受有很大的影响。


而无论在小学,还是读博期间,张驰始终延续着这种习惯。


在他看来,小孩子也应该培养这种习惯和热情,如果不感兴趣,没有热情,做事就会非常痛苦,家长也跟着痛苦。


所谓因材施教,就是从价值、习惯的角度,去给孩子加以引导。


如今的AI技术包括文生图、文生视频、大语言模型,已经非常多,但用怎样的办法,能让小孩子去接触、去使用呢?


这就是做产品的人,需要去思考的事情。


这里的产品,做的不仅仅是单词的翻译、课本的解读,要真正发挥AI的价值,就要把AI作为小孩子思考的一种工具,成为他们的习惯。


现在,AI可以看作是我们身边的一种高等智慧,知道它的存在之后,能否用它来提升自己的思考方式。


在将来,会使用AI的孩子,和不知道AI存在、不会用AI的孩子,思考方式会截然不同。


AI的角色可以比喻成计算机,但影响力会比计算机更大。


作为一个AI研究者,张驰对于AI所有领域的发展都十分感兴趣。


他的经历涵盖了传统的视觉、多模态大语言模型到AIGC。


另外,他还在西湖大学开设了一门《大模型导论》通识导论课,希望把AI知识以大家都能接受的方式传递给大家。


读博期间,张驰做的研究方向是计算机视觉和机器学习,包括各种监督和数据的处理算法,离大众并不近。


但到了腾讯之后,做的东西就开始偏主流,比如生成式AI、AIGC、多模态大模型和智能体,这些都是现在大众视野中的AI。


首次在图形界面中探索智能体


2023年末,还在腾讯的张驰,作为共同一作发表了多模态智能体框架App智能体。


他们首先探索了智能体服务于手机这种场景下的功能,比如用它去操作一个软件,或者去点外卖。


可以说,在图形界面中做智能体,张驰的团队是第一个。


但团队的目标,远不止于此。


大模型时代,人机交互是什么形态?


在大模型时代,人机交互终极形态显然不是电脑或者手机。


如果回顾人机交互发展历程,你便会发现一个很有趣的趋势:从最初命令行,到后来的图形用户界面,再到如今大模型和智能体的兴起,每一步都在让技术变得更「亲民」,门槛更低,体验更自然。


摇滚首席科学家放大招,AppAgentX让10后学习开挂!十年暗战AI贾维斯


想当年,命令行界面必须得是一个懂代码、懂指令专业人士操作。后来,UI出现了,它把复杂的后台操作隐藏起来,变成了我们熟悉的「拖拽」「点击」形式。


这本质上,是一次技术门槛的降低——普通人不需要理解技术原理,凭直觉操作就能完成任务。


而大模型和智能体的出现,又把这个进化过程推向了下一步。


这一次,交互的媒介变成了语言,每个人最熟悉、最自然的表达方式。


文字/语言成为交互的最新途径,它不仅让更加复杂的功能抽象化,还把「意图」和「功能」之间的桥梁搭得更牢固。


举个栗子,以前点外卖可能需要多步繁琐的操作:打开APP、选餐厅、挑菜品、下单。现在有了智能体,你只要说一句「我饿了,想吃点东西」,它便能理解你的意图,甚至还能根据场景推荐「要不要来份披萨」。


不难看出,这是一个从命令到UI,再从UI到语言交互的转变。


语言交互让意图更清晰、更能更抽象,就连复杂任务都能被简化为一句指令,变成「任务托管」的形式。


你只需要做的,就是用最直觉的方式——说话或打字,就能搞定一切。这种趋势的终极目标,就是让技术彻底融入生活,像空气一样无感却又无处不在。


在张驰看来,未来并不会只有一种交互方式,独霸天下。命令行、UI、语言交互,这三种形态可能会长期并存,服务于不同人群。


他举例称,命令行依旧是程序员和专业人士的「专属」,因为它精准、高效;UI是目前的主流,适用于大多数人,诸如修图这类任务,普通人可以用美图等简单工具,专业人则会用PS等。


而语言交互,未来可能会让非专业需求变得更简单。比如,我想P一张艺术照,不用自己手动调参数,只要一句话,智能体就能实现。


在这种情况下,智能体服务的是一个整体的体验,通过语音互动扮演好一个贾维斯,一个什么都能做的超级助理。


它能做到的绝不仅仅是点外卖,而是成为你的好朋友,好伙伴。


除了跟你交流,它还能倾听你的想法,给你建议,帮你解决问题,是服务于整体的一个目标。


张驰和团队研究智能体之后,觉得不能做一个僵硬的智能体工作流,而是让它像人一样越接触越聪明,在智力和效率上都能不断进化。


的确,如果只是做一个能对话的智能体,其实很简单,但要真正把这个东西做好,可以相当复杂。


举例来说,如果这个设备能记住一天中发生的事情,整理成一个长视频,多模态能力还能把发生的事情整理下来作为记忆,给用户带来的交互体验将会完全不一样。


这时,它就是一个能真正看到你、了解你的伴侣,而不只是基于对话需求键入一个query,然而更聪明地回复你一句话。


在此过程中,就需要去结合智能体的长记忆和短记忆,并且智能体本身的架构也需要能够进化,才让用户在使用智能体时体验越来越好。


技术有了,那么接下来的问题是,该用在什么方向上呢?


10后,成长在AI爆发的年代


每个时代,都会有自己的特点,而唯一不变的是孩子们对周遭环境的好奇。


曾经的80后、90后,接触计算机还要穿着鞋套进机房,但如今的小孩却处在一个信息大爆炸当中,对于他们而言「环境」的定义已经很不一样了。


有一次,张驰看到自己的外甥正在学少儿编程。


首先要学图形化编程,然后就是Python这类代码编程。他们的学习方式很枯燥,还是过去那种刷题的模式:在纸上给一个编程题,然后直接去做。


对此,张驰感到十分诧异:既然是教编程,不应该是先去电脑搭一个能调试起来的编程环境吗?


因此,张驰给外甥推荐了大语言模型编程环境,比如用豆包。他建议说,遇到什么题就直接做豆包上问,因为它能把代码解释得非常清楚,还能把错误找出来。


果然,这样做以后,孩子的学习效率立刻高了起来。


将AI融入学习的过程,本质上是一种对人工智慧的运用。有这样的智慧在身边,你对它的边界也相对了解,怎样让它帮助到自己,就是一门学问。


这就像智能体的工作流,每个环节负责不同子部分的目标,在更复杂的多智能体中,则是每个智能体负责一个子任务。我们知道这些智慧擅长什么,该怎么让它们配合好,解决自己的问题。


作为AI从业者,张驰和自己的同事每天看到各类AI新闻,都会觉得非常惊喜和兴奋,对于孩子就更是如此了。


他们希望,中国的孩子对于AI能力的认知上,能够不逊于任何国家的人,也不逊于成年人。


陪伴一个孩子成长


提到学习,就不得不说它的一个副产物——心理问题。


虽然成因千差万别,有刚刚提到的学习压力,有源于家庭环境,还有的是性格使然,但解决方法还是有迹可循。


心理医生能够懂得倾听、设身处地理解,激发人的表达欲望。


同理,智能体产品本质上也在做一件类似的事——成为孩子们的「智慧伙伴」「心灵助手」。


对于α世代孩子们来说,不会在现实生活中表达内心。一方面,他们可能缺少倾诉的机会;另一方面,他们获取因为内向,不好意思开口,选择默默承受。


张驰表示,「听力熊Teeni.AI智能体提供了一个安全的交流通道,孩子可以在这个虚拟空间里畅所欲言,不用担心被误解、表现尴尬。


这种互动不仅能缓解情绪,还能让孩子学会表达和反思。


更重要的是,智能体不仅仅是一个倾听者。


它还能在生活、教育、兴趣等多个维度,为孩子们提供帮助。


想象一下,就像「钢铁侠」里的贾维斯一样,你和它聊天时,它能随时陪聊;你需要查资料时,它能迅速帮你搞定...


这种「能思考、有执行力」的伙伴,不只是功能性工具,更像是一个贴心的朋友。


当然,要让智能体真正成为孩子们的伙伴,听力熊Teeni.AI目前仍有许多需要打磨的地方。


比如记忆力,如果孩子昨天向智能体倾诉了一件烦心事,今天再提起时,智能体全然不知那种体验肯定大打折扣。


一个优秀的智能体,应该记得你的喜好、习惯,甚至是你昨天的小情绪,这样才能让互动更自然、更贴心。


除了记忆,幽默感、机智、共情能力同样重要。


孩子可能需要的不只是解决问题,还希望在不开心时被逗笑,在失落时被理解。


再有LLM多模态能力的加持,比如看懂图片、听懂语音,便能让智能体的陪伴更加立体。


张驰表示,我们想要做得更多,比如理解长视频。一个孩子一天的经历,可能包含好几个小时的视频片段,里面有对话、表情、场景的变化,甚至还有语气的起伏。


如果智能体能捕捉到这些细微的情绪,甚至结合上下文理解他为什么开心、为什么失落,那互动就会更有温度。


张驰曾在QQ中做过一次调研,数据显示,小孩和成人中使用产品时,会呈现出许多不一样的点。由此也不难得出,孩子们喜欢的产品形态,显然是和成年人不一样的。


这些让他思考:究竟如何做出小孩子最喜欢的产品?


产品,要做成什么样子的?


虽然如今是技术大爆炸的时代,但技术和用户、产品之间的gap是需要被克服的。


这就涉及到一个本质问题:做这样一个产品,究竟是为谁而做?


选择合适的技术,再做成合适的产品给用户,这中间有一条很长的路。期间,需要公司去很好地洞察人性,发自内心、设身处地地考虑用户需要。


比如曾经一度爆火的Ai Pin,就是一个炫技的产品,并没有很好地考虑用户的需求。


对于青少年来说,像科大讯飞、学而思的AI学习机其实大家都见过很多,但听力熊Teeni.AI「随身智能体」这种形态的产品却比较少见。


一方面,得益于AI技术的进步,产品的想象力可以更加放飞。另一方面,这也体现了产品的理念——最终,是为了青少年而设计的。


产品带给青少年的,不仅仅是一个狭义的教育意义,像平板、学习机那样去教授知识。


教育更大的目标,是育人。产品更大的意义,是陪伴一个孩子成长。这就涉及到了价值的传递、习惯的培养。


比如,培养一种好奇心驱动的思考方式。这,就是「随身智能体」和其他产品的最大差异。


在产品设计上,听力熊Teeni.AI充分考虑了孩子的天性:他们不一定喜欢过去很传统的读文字、读书,而是天性喜欢去玩、去探索。


从功能上讲,张驰希望,使用听力熊Teeni.AI产品的青少年能接触到最前沿的AI技术。因此,产品需要极有生命力,不断更新内容。


这种情况下,能有一个类似贾维斯或者哆啦A梦的虚拟伙伴陪在身边学习、解答问题,往往是孩子最能接受的一种形态。


DeepSeek,让更多人能够接触AI


如今,DeepSeek的出现,不仅让人们见识到了现阶段AI的强大之处,也希望主动去拥抱AI;而且也让让各家公司都能够借助AI加速迭代产品,也包括教育硬件类的公司。


但是,张驰再次强调,「技术和产品,从来都不是强绑定的关系」。


若想做好一件产品,真正需要的是将技术需求和产品完美融合,只有这样的公司最后才能成功。


接入大模型,就能让AI教育硬件脱胎换骨吗?


从用户体验上,肯定会有提升,比如翻译更准确,理解意图更精准,输出结果更优质等等。


但问题在于,这种技术能力的进步,能不能真正转化为产品竞争力?答案是,不一定。


技术只是工具,产品才是用户最终接触的形态。如何把LLM智慧变成用户手中的价值,这中间的转化过程,才是决定成败的关键。


不同公司在这方面的表现,往往会拉开差距。


也就是说,一家公司如果过去在LLM领域积累了丰富的经验,同时有对目标用户群体有深刻的洞察,那么他们很有可能做出更贴合需求的产品。


十年磨一剑,智能体全新探索


十年磨一剑的听力熊Teeni.AI团队,始终深耕人工智能硬件领域。


从2015年推出首款C端家庭陪伴机器人「布丁s」,到2017年为B端市场提供千万级出货量的ROS.AI解决方案,再到2020年打磨出颠覆行业的听力熊便携终端——这支「爆品制造机」从未停止进化。


2025年2月,搭载哪吒AI角色的听力熊终端实现28亿token大模型调用量,登顶国内青少年硬件赛道。


「做适合青少年的、专业的、专属的AI产品」,团队的初心在大模型时代愈发坚定。


随着张驰的加入,听力熊与AI的绑定从「技术加持」升维为「基因融合」——与其说用AI升级硬件,不如说以硬件为容器,将前沿AI技术具象化为可感知的陪伴。


据透露,听力熊新一代产品的设计初衷,是打造贾维斯般的智能伙伴。相较专注听力训练、英语学习等单一场景的T系列「功能机」,新一代产品开启了智能体的全新维度,目标是与电脑、相机一样,自然融入孩子的日常生活。


张驰对其愿景是,帮助孩子建立一种对AI的态度,它可以是你依赖的伙伴,但最终的价值,还是由你自己创造。


这一点,对于α世代孩子尤其重要,因为他们几乎是从0开始构建对AI的认知。


「我们不是在教他们『用』AI,而是在教他们如何在AI时代下,思考、表达和生活。


可以说,这个产品是一个打开AIGC前沿的大门,把最新的技术带给孩子们。


AI的意义,被低估了


在采访最后,张驰表示,AI的意义如今被低估了。


有很多人喜欢把AI的革命比作计算机的革命,但前者显然意义更大。因为计算机革命的周期很长,如今很多年长的领导人还不会用计算机,但他们在工作中并没有太大的困难。


但AI对人们生活的影响,显然会高很多。因为它本质上是一种智慧,但人的智慧是有限的。


当你身边有一个更智慧的「人」帮你解决问题、思考问题,会让人和人的差距变得非常大,而到了小孩子身上,这个问题就会被放大更多。


因此,AI的意义,应该从孩子对世界的认知上就开始强调。


如果在未来几年,AGI真的能很轻松地打败人类,人和人的差距就会更明显。


因此张驰发自内心地希望,不仅是自己公司的产品,全社会的产品都能让中国的孩子不落后于世界,去更早地接触AI。




文章来自微信公众号 “ 新智元 ”


摇滚首席科学家放大招,AppAgentX让10后学习开挂!十年暗战AI贾维斯


关键词: AppAgentX , 听力熊 , Teeni.AI , 张驰
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md