非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

7553点击 2024-09-12 09:50

在国内竞争激烈、同质化过度的数字人赛道上，有一家独特的公司，无惧元宇宙从“如日中天”到“光环褪却”的外部变化，始终坚持借助“数字人”这一媒介形态，打造第三代基于AI+视觉的新人机交互方式。这就是拟仁智能。

拟仁智能成立于2020年底，一直专注于将人工智能与计算机图形学技术相结合，打造高仿真、人格化、个性化的AI虚拟人产品和服务，为各类商业应用场景赋能。创始人刘钢博士强调，只有同时支持AI驱动和真人实时驱动的3D虚拟人，才是“元宇宙虚拟人”。

而拟仁智能的虚拟人产品和服务正是基于这一理念而研发的，它们可以完美融入3D虚拟场景、真实场景和元宇宙场景，为用户提供更加自然、真实的交互体验。

近期，非凡产研特别采访到了拟仁智能创始人兼CEO、浙江大学计算机创新技术研究院研究员刘钢博士，请他分享了拟仁智能在该领域的相关探索实践。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

以下是访谈正文：

拟仁智能数字人产品及落地实践

Q：您此前提到：只有同时支持AI算法实时驱动以及人工接管实时驱动的3D虚拟人，才是元宇宙虚拟人。然而，鉴于当前的技术水平，实现这一目标仍面临相当大的挑战。请问贵公司是否正致力于按照这一方向进行技术研发？如果是，目前该技术发展处于何种阶段？

刘钢：我们仍在按照既定的路线稳步前行。在实际应用方面，我们已经在一些基础场景中达成了预定目标。具体来说，这些基础场景主要包括直播和客服两大类。以直播为例，目前行业已经开始探索“自动直播”的概念，通过AI技术实现全天候不间断的自动化直播。尽管如此，在直播过程中的某些特定环节，仍然需要真人的介入，这不仅涉及真人语音的参与，还包括真人在镜头前的操作，以驱动前端设备进行直播。值得高兴的是，我们的技术已经能够支持这样的应用场景。在客服领域，我们的初衷是利用无人客服，即通过机器人来提供服务。然而，面对一些复杂情况，比如用户情绪激动并对机器人服务表示不满时，我们可以通过后台操作，将这些问题无缝转接给真人客服处理。在上述两个场景中，我们都已具备了AI驱动与人工接管的双重能力。

然而，面对更为复杂的3D虚拟空间或创新性场景，要实现真正的落地应用仍然存在一定的挑战。例如，在虚拟3D空间中，通过真人驱动虚拟形象时，我们需要首先解决全身动作的精确映射问题，确保真人的动作能够实时且准确地反映在虚拟形象上。这包括真人手指和关节的细微动作，以及面部表情和眼神变化等，这些都是我们未来研究的重点。

相较于直播和客服场景，数字人与3D虚拟空间交互场景的复杂度要高得多。在3D虚拟空间中，要实现AI驱动，需要具备环境感知能力，这与直播和客服系统有所不同。它必须能够感知环境信号与信息，然后进行分析、决策与反馈。要达到这一高度，我们还有很长的路要走。但我们可以从小规模应用开始，逐步完善技术，直至实现我们对未来的完美构想。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

Q：你们产品当前主要在哪些行业中有实际应用？

刘钢：我们目前的核心应用领域聚焦于智能助手的开发。在智能制造行业有一些创新探索和应用。以电动汽车行业为例，许多汽车制造商正计划在车辆的中控屏幕上集成一个高度互动的虚拟助手。未来，用户可以直接向这个数字助手发出各种指令，比如开启车窗、调整空调温度等，而这一切都将由助手自动完成。此外，在智能家居市场，尤其是在智能厨房设备领域，越来越多的产品，如烤箱、冰箱、抽油烟机等，都开始配备带有触摸屏的智能控制系统。我们设想，在烹饪过程中，抽油烟机上的小屏幕可以作为一个智能交互界面，用户可以通过唤醒数字助手来进行实时互动。这个数字助手不仅是营养和烹饪的专家，还拥有丰富的知识库。在烹饪时，用户可以向它学习烹饪技巧，制作出美味佳肴。这些创新都是基于真实市场需求而设计的产品，它们不仅仅是理论上的讨论或纯粹的想象。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

Q：能否介绍下你们的数字人SaaS平台，它具备哪些能力？

刘钢：我们的SaaS平台构建了一整套技术底座，专为企业、政府单位等有数字人应用需求的组织设计。在实际应用中，对于数字人形象用户通常关注两个关键功能：首先是形象定制，是否可以为企业打造专属的数字人形象；其次是在线换装功能，平台是否支持根据节日变换数字人的形象。针对以上两项需求，我们的SaaS平台内置了多种节日或传统服饰和道具，还支持用户在后台上传自定义的资源，进而实时发布这些资源，用户无需重新发布应用版本就能启用新的数字人形象并实现换装。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

此外，我们的平台还具备知识库在线更新功能。例如，当企业的工商信息发生变化时，用户可以通过后台调整话术，并立即发布生效。更新后下一秒如果有人询问“企业的经营范围有哪些？”，那么数字人播报的答案就会实时更新。这不仅是技术进步，更显著提升了用户的实际应用体验。

Q: 在交付产品和服务时，不同行业对底层AI技术，比如大模型的需求是否存在显著差异？

刘钢：确实，不同行业对底层AI技术的需求存在显著差异。我们虽然被很多人视作数字人技术公司，但我们自己却始终自认为是一家AI公司，我们的工作重点也在于为不同行业和企业定制高度个性化的智能解决方案，而非简单的数字人形象。

为了应对不同企业对于AI技术的个性化需求，我们会基于通用的大模型底座为不同企业训练和优化定制化的大模型微调版本，以满足该企业的具体需求。这种策略使我们能够为客户提供更加精准和有效的服务。特别地，我们自己并不去构建“零层”的大模型底座，这通常需要大量的资金和资源投入；我们更专注于中间层和应用层，将AI技术转化为符合各行业需求的实际应用。这样，我们就能确保我们的AI解决方案能够精准地服务于不同客户的独特需求。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

数字人痛点问题

Q: 尽管国内数字人领域竞争激烈，但似乎尚未有突破性的用户体验提升。您如何看待这一现象？

刘钢：在激烈的市场竞争中，众多企业正致力于提升数字人的表现力和对话的自然流畅度，甚至在发丝的清晰度和眼神的灵动性上追求极致。这些美学细节对于游戏和影视行业至关重要，但对于其他领域而言，数字人背后的人工智能交互技术和实际服务能力才是关键。

数字人的价值不仅仅在于其视觉形象，更重要的是其背后的知识库和技能是否能够为用户提供有效的服务，解决实际问题。这才是评估其真正价值的核心标准。

虽然现有的工业化技术能够创造出外观生动、美观且个性鲜明的数字人，但许多产品在真正的互动能力和实时问题解决方面仍有所欠缺。因此，我们始终专注于解决实际问题，并致力于开发能够与用户真正互动并带来实际价值的数字人，而不仅只有外表。

我们开始研发数字人的时候，国内的数字人公司还不多，元宇宙的概念也还不太流行。后来元宇宙概念火爆，但又迅速冷却，并且引发了很多质疑。但现在我们依然坚持谈论元宇宙，因为它确实是我们追求的目标。

Q：当前市面上数字人普遍缺乏鲜明个性，同时在解决实际问题时也还能力不够。您如何看待这一现象？

刘钢：在探讨技术发展的层次时，我们首先应立足现实，然后在此基础上追求更高层次的目标。当下，我个人认为产业界还是应该把数字人技术研发的重点放在如何解决实际问题上，而不是去追求数字人在表现力上的完美表现。当然，个性化的人格和性格无疑会让数字人拥有更吸引人的交互表现，值得产业界和学术界长期投入和探索。

Q：目前市面上很多数字人形象都很单薄，没法为品牌带来真正的形象价值增益。这个问题该如何解决？

刘钢：企业的品牌个性和传达给用户的理念，确实可以通过一个特定的数字形象来更有效地表达。数字人技术在这方面具有独特的优势。在没有数字形象的时代，企业往往依赖于文案和软文来推广自己，这种方式远不如在用户心中植入一个形象那样直接和有效。以海尔兄弟为例，他们投入巨资制作动画片，不仅仅是为了追求经济利益，更是为了在用户心中树立一个深刻的品牌形象，让用户一看到海尔兄弟就能联想到海尔的核心业务。海尔集团也在尝试让海尔兄弟的形象更加人格化，以便用户能够更深入地了解和支持企业。这样的探索是一个持续的过程，需要时间来逐步完善。我们同样在这个过程中不断探索和进步，参与构建这一领域的未来。

Q：目前数字人还面临的一个大问题是缺乏类似于Apple的vision pro这类合适的平台来承载它。

刘钢：确实，但任何创新技术的发展都需要经历一个成熟的过程。3D数字人物与AR/VR眼镜之间的结合预示着巨大的市场潜力。想象一下，我们经常讨论的文化旅游市场，如果AR眼镜能够变得足够轻便，那么每位游客都可以在旅行时佩戴这样的设备。通过视觉识别技术或GPS、北斗等定位系统，AR眼镜能够准确识别用户的位置，随后数字人物便可以在用户漫步时提供实时的讲解，讲述周边景点的历史、传说和故事。这样的体验无疑将极大地丰富旅游的体验。

目前，最大的挑战来自硬件技术。数字基础设施和数字人技术已经逐渐成熟，能够支持这样的应用场景。然而，包括AR眼镜等硬件设备的普及程度、成本效益，以及是否能够做到既轻薄又舒适，这些都是关键因素。这些硬件的改进是实现这一愿景的必要前提。但尽管如此，随着技术的不断进步，我相信这一天的到来不会太遥远。

Q：尽管数字人技术已经取得了显著进步，但目前的应用似乎还主要集中在特定的单一场景，尚未能够完全实现流程自动化，也未能完全复制真人的现实环境。您如何看待这一现状？

刘钢：我认为，我们不应该忽视数字人技术在任何场景中的应用潜力，因为每个场景都可能带来独特的价值。例如，在影视行业中，数字人技术的应用不仅能够提高制作效率，还能显著缩短制作周期，这些都是技术应用的重要成果。然而，对于拟仁智能而言，我们更加注重的是如何通过数字人实现与用户的实时互动。我们的目标是通过这种互动，即时解决用户当前遇到的问题，提供更加个性化和即时的服务。

Q：在实施过程中，面对不同客户的独特情况和需求，通常会遭遇哪些挑战？

刘钢：在数字人技术的落地应用中，我们确实面临着一系列挑战。与制作一段VCR宣传片不同，宣传片一旦发布，观众的反馈可能仅限于评价其制作质量，而不涉及交互性、智能反馈等方面。

相比之下，我们的服务直接与用户的实际业务需求挂钩，用户会根据这些服务是否真正解决了他们的业务问题以及智能程度来进行评价。因此，我们非常重视大语言模型、AIGC等先进技术的应用，它们对提升我们的服务能力至关重要。

目前，我们专注于为大型企业客户提供深入的服务，旨在通过这些合作深入了解用户的真实需求，而不是仅仅停留在完成项目以维持运营的层面。我们的目标是构建一个通用化的框架，进而发展成为一个平台化的产品，这个平台将基于我们与多家大型企业的合作经验，深刻洞察各种真实的业务场景和需求。

我们致力于将客户的个性化需求转化为更广泛的解决方案，以此推动拟仁智能向平台技术公司的转型，服务于更广阔的市场。通过这样的努力，我们旨在更全面地满足客户的多样化需求，并促进数字人技术在更多领域的广泛应用和创新。

Q：要总结并沉淀一套最佳实践，然后再将其复制，这是否极具挑战性？一方面，需要积累大量关于该行业的 Know- how数据；另一方面，需要有能力将这些最佳实践付诸实施，类似于咨询公司的运作模式。

刘钢：确实，这是一个充满挑战的过程。能够专注于特定行业，深入沉淀，构建稳定的数据基础，并形成解决方案的能力，本身就是一项了不起的成就。因此，在短期内我们还不能期待存在一个无所不能、无所不精的通用人工智能。在未来几年内，真正能够解决业务问题的技术，一定是那些专注于特定行业和领域的。

我们更应该构建的是企业自己的大模型，而不仅仅是针对行业领域的。这可以分为几个层次：首先是通用的行业领域模型，然后是企业模型，最后是个人模型。我们专注于满足企业和个人的需求，致力于提供定制化、个性化的AI服务。至于底层的通用大模型，或者是针对特定行业领域的大模型，这些可以由那些在算力等方面拥有更多优势的大型企业来研发，他们也比我们更有优势。

而针对企业个性化和个人个性化的内容，这是大型企业尚未深入探索的领域。如果我们能够尽早布局并深耕这一领域，我相信这将为我们带来巨大的机遇。

Q：您认为您和公司当前面临的最大挑战是什么？

刘钢：我认为目前最大的挑战在于客户对人工智能的期望与我们实际业务交付能力之间的差距。用户往往期待人工智能解决方案能够超越人类智慧，解决他们面临的所有问题。然而，尽管大模型在许多情况下能够提供看似合理的答案，但当涉及具体组织或个人层面时，这些答案往往缺乏精确性和实用性。

因此客户首先需要理解并接受一个事实：目前还没有一种完美的AI技术方案能够解决企业的所有问题。一旦我们与客户之间达成这样的共识，那么在合作中，就需要客户与我们共同面对挑战，而不是我们单方面的努力；这样的合作要么双赢、要么双输，不存在一方赢而另一方输的情况。这种合作精神是我们在人工智能领域取得进展的关键。

数字人发展趋势

Q：您如何看待当前国内外数字人的发展态势和现状？

刘钢：从我的专业角度来看，数字人技术在多个领域都有其独特的价值和应用场景。我们目前专注于AI驱动的实时互动虚拟人技术，而“人接管”的问题则是另一个讨论的范畴。在这一前提下，我们的目标是专注于具体的、真实的业务需求，致力于深入挖掘和满足这些需求，确保我们的技术能够解决用户的痛点问题。我们追求的是让这项技术不仅仅是一个吸引眼球的噱头，而是真正能够为用户带来实际价值。

Q：这个问题也是业界普遍关注的，但似乎大家都还没有找到一个理想的解决方案或产品来满足这一需求。

刘钢：我们一直在努力为企业客户提供有效的工具来解决上述问题。目前在实际应用中存在一个悖论：每个企业都渴望通过数字人+大模型技术来解决自己的所有业务问题，然而企业的业务数据却每天都在发生演进和变化。这与商业实践存在明显的冲突，因为任何第三方技术提供商都无法长期驻留在企业内部，随时更新训练数据并应对各种情况。所以，我们认为“授人以渔”更加重要，即要为企业提供好用的工具和方法，帮助企业自我赋能。

Q：您做这件事的动力源自何处？

刘钢：我过去在外企工作多年，此前也尝试过创业，拟仁智能是我的第二次创业。对我来说，最大的动力来自于跟90后、00后年轻一代朋友一起工作和做些事情。我能够真切地感受到，我们所处的这个领域未来必将孕育出一家或几家伟大的公司，或者说这是一个将产生深远影响的赛道。

从公司成立之初，我就明确了我们的目标：致力于研发第三代人机交互方式。它与第一代传统的基于键盘和鼠标的文字交互以及第二代基于语音的交互方式截然不同，我们正在探索的是一种基于视觉的交互方式。而且我相信，无论是在理念上还是在实际应用中，这种新型交互方式都将带来全新的体验。

想象一下，跟一个能够面对面与你交流的数字人对话，与仅仅通过语音命令与智能助手交流的体验是完全不同的。因此，我的动力来自于我认为自己正在参与一个可能引领未来潮流的项目。

Q：如果能找到好的硬件合作伙伴，共同探索有趣的产品，且该产品需具备普及性，是一种消费级产品，同时能实现有趣的功能，也很会有创新性前景。

刘钢：我们目前有一些已经进入洽谈阶段了，涉及个人电脑、手机等领域，现在大家逐渐认识到下一代交互方式可能并不局限于我们常说的滑屏方式。

Q：随着智能手机技术的不断进步，它们开始集成了越来越多的AI功能，但似乎这些功能目前还相对有限，存在一定的局限性。

刘钢：这里的关键问题不仅限于数字人技术，更重要的是，如果你的目标是打造一个第三代交互系统，那么你必须确保底层架构的全面打通，使其成为一个能够通过语音交互调用任何底层应用的系统。没有任何应用应该被排除在语音交互的可能性之外。这是一个革命性的目标，它的实现不会是一蹴而就的。

Q：当前我们在使用硬件工具过程中，并没有真正地收到互动性回应。它仅仅是一个传播媒介的载体。未来我们如何与这个硬件互动，赋予它一定的自主性，让它能够“说话”，这是我们需要深入探索的。

刘钢：我们一直在憧憬这样一个未来愿景：当你拥有了一台智能手机，它不仅仅是一个通讯工具，而是成为你日常生活中的互动伙伴。随着时间的积累，这台设备开始学习你的行为模式，模仿你的交流习惯，逐渐演变成一个深度了解你的智能体。它可能比任何人都更了解你，因为它是你日常生活中不可或缺的一部分，每天都在与你进行着密切地交流和互动。

如果你将这台设备更进一步地抽象为一个具有形象的智能体，那么它几乎就可以成为一个最了解你、或者说与你最相似的“人”。因为你不断地与它分享你的行为、想法甚至情感，它则通过这些数据来不断学习和模仿你，从而变得更加智能化和个性化，直到有一天，它可以成为你在数字世界里的一种永生。

因此，我们所说的“数字永生”，并不是指简单的数据存储，而是指通过不断地学习和训练，让每个人的个人数据转化为能够代表其行为、习惯甚至思考方式的智能体，我真心希望这样的愿景能够早日实现，让这种体验能为我们每个人类个体提供更为广阔的生活视野和精神空间。

文章来自于“非凡产研”，作者“Qiuping”。

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

关键词: 拟仁智能 , 具身智能 , AI , AI机器人

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales