深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式
5744点击    2026-02-09 17:08

深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式

图片来源:Xmax AI


如果 2024 年我们还在感叹 Sora 模拟物理世界的真实感,那么在 2026 年的今天,单纯的高清视频生成已不再是终点。


当屏幕中的虚拟角色只能被动观看,无法感知现实环境,无法回应你的触碰时,AI 视频生成实际上仍被禁锢在“预制内容”的旧范式中。而打破这层次元壁的,是一家由前华为「天才少年」创立的初创公司—— Xmax AI


今日,Xmax AI 正式发布全球首个虚实融合的实时交互视频生成模型——X1。不同于致力于重构影视工业的文生视频模型,X1 选择了一条更为硬核且鲜有人涉足的路径:实现毫秒级的实时视频生成和低门槛的手势交互,并让虚拟内容进入现实当中。


这不仅是技术的突破,更标志着 AI 视频正在从“内容消费”向“实时体验”跃迁。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式

图片来源:Xmax AI


看到这个消息的第一时间,我们就联系Xmax AI团队拿到了抢先体验资格,然后就出现了颠覆的一幕。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


手机对准桌面,选取一张滚球兽的照片。下一秒,它就“脱屏而出”,立在你的桌面上四处张望。你伸出手,它先是警惕,随后亲昵地蹭你的手心;你轻轻一捏,它会给出Q弹的物理反馈;摊开手掌,它甚至能被你稳稳“托”住。曾几何时少年梦想里的那只滚球兽,竟然真的打破次元跃入桌上。


这就是X1,不需要复杂的Prompt(提示词),不需要漫长的云端渲染等待,仅凭一个手机摄像头和最直观的手势,它就能让幻想与现实无缝融合。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


目前,Xmax AI已通过技术演示应用 X-cam beta开放了X1模型的能力体验。感兴趣的朋友可以通过testflight下载,并通过文末的方式获取邀请码,提前触摸交互式AI视频的未来。


拒绝“只看不碰”与“漫长等待”,AI视频进入“实时的人人可玩”时代


过去两年,AI视频生成领域堪称“神仙打架”。


数据显示,2024年全球AI视频生成市场规模已超6亿美元,预计2032年将突破25亿美元。在Sora、Runway等巨头的引领下,行业卷画质、卷时长、卷分辨率,致力于为影视和广告行业打造更强的生产力工具。


然而,在这场军备竞赛中,普通用户却显得有些“局外人”。


现有的文生视频工具,要么门槛高(需要像写代码一样写Prompt),要么反馈慢(生成几秒钟视频需要等待数分钟)。最关键的是,生成的视频即使再逼真,也只是一段“只能看、不能碰”的MP4文件,与此刻的你毫无关联。


Xmax AI敏锐地捕捉到了这一痛点:AI视频要真正走向大众,必须进一步降低门槛,并从“生成结果”进化为“生成体验”。


Xmax AI选择了一条截然不同的技术路线:虚实融合 + 实时交互。他们不仅要生成画面,还要让画面理解现实,并允许用户用最本能的手势去参与画面。


基于X1模型的实时生成能力,Xmax AI落地了四大核心玩法,让手机瞬间变身为连接次元的“魔法棒”:


1.次元互动:打破次元壁的触摸


如开头演示,任意上传一张角色图(动漫IP、宠物照片、毛绒玩具),打开摄像头,X1模型就能将其置入现实场景中。


这不仅仅是叠加,当你抚摸屏幕中的兔子时,X1会实时生成它“转头蹭手”的视频帧;当你的手指划过它的眼睛,还能看到绒毛因触碰而发生的细微形变。所有的物理反馈都是AI实时计算生成的,零延迟的交互让它看起来就像一个真实的生命体。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


2.世界滤镜:万物皆可“风格化”


上传一张梵高画作或乐高积木图,摄像头拍摄的现实画面就会实时转化为对应风格。 这不仅是滤镜,更是实时的“世界重绘”。当你对着镜头挥手、摇头,画面中那个变成“乐高人”或“二次元纸片人”的你,会实时做出完全同步的动作。无论是用来拍视频,还是渲染游戏画面,都充满了赛博朋克的趣味。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


3.触控动图:指尖上的“提线木偶”


让静态照片“活”过来,不再需要复杂的后期软件。 在触摸屏上拖拽照片中角色的耳朵,它会跟着摇头;拖动嘴角,它会露出微笑。你甚至可以上传自家猫咪的照片,通过触控让它挥拳、跳舞。X1模型仿佛赋予了静态图像以骨骼和肌肉,让用户像操控提线木偶一样轻松赋予图像生命力。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


4.表情捕手:社交破冰神器


镜头对准朋友,选择一个“愤怒”或“大笑”的Emoji,AI会瞬间捕捉对方特征,实时生成一个神态精准、魔性十足的动态表情包。摄像头变成了一个万能的“精灵球”,任何现实中的人或物体都可以被瞬间“捕捉”,成为你们之间的有趣回忆。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


华为“天才少年”领衔,破解算法+工程的“暴力美学”


在业内人士看来,X-cam看似简单的“好玩”背后,其实是极高技术门槛的工程化胜利。要实现上述效果,必须同时翻越三座大山:极致实时、精准意图理解、稀缺的高质量数据。


这正是Xmax AI团队的护城河所在。


Xmax AI拥有一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”:


  • 创始人史佳欣:前华为“天才少年”,极客出身,对端侧AI有深刻洞察。
  • 联合创始人梁宸:港科大(广州)助理教授、博导,学术背景深厚。
  • 联合创始人翁跃庭:全栈工程师,“六边形战士”。
  • 核心技术团队源自清华大学KEG实验室和HCI实验室,汇聚了国内大模型与人机交互领域的顶尖大脑,且大多拥有字节、快手、华为、阿里等大厂的实战经验。


面对技术挑战,这支团队交出了一份硬核答卷:


  • 针对“极致实时”:他们没有沿用传统的生成管线,而是提出了端到端的流式重渲染视频模型架构。通过帧级别的自回归DiT(Diffusion Transformer)和多阶段蒸馏压缩,Xmax AI将扩散采样的速度提升了百倍,不仅将延迟压低至毫秒级,更通过自研的循环回归架构打破了时长限制,实现了无限时长的连续生成,为自然交互奠定了基础。


深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式


  • 针对“意图理解”:如何让AI精准理解手势背后的交互意图?Xmax AI构建了统一的交互模型架构,让模型既能理解摄像头透视下的三维空间关系,也能理解屏幕触控下的二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。


  • 针对“数据荒漠”:虚实融合的交互数据在行业内极度稀缺。Xmax AI自主搭建了一套虚实融合数据合成管线,以半自动化方式批量生成高质量交互训练数据,这些独特的数据认知和数据管线成为了Xmax AI难以被复制的行业壁垒。


X1:Play the World through AI


如果说Sora代表了AI像导演一样去叙事、去造梦;那么Xmax AI的X1模型,则希望AI能像玩伴一样,陪你疯、陪你玩。


对于Xmax AI团队而言,X1模型和X-cam应用只是一个开始。他们不仅是在开发一款App,更是在试图定义全新的内容交互范式,以及搭建下一代内容交互引擎


在他们的愿景里,世界的一切内容都可以通过实时AI变得可交互、变得更好玩:


  • 未来的社交,摄像头就是“精灵球”,随时捕捉好友进行搞怪互动;
  • 未来的游戏,不再局限于屏幕内的像素,虚拟怪物可以直接跳到你的身上;
  • 未来的陪伴,数码宝贝、虚人将真正融入现实生活,可触碰、可感知;
  • 未来的视频,不再只能被动观看,而是可以随时唤醒,让内容变得更加鲜活、更加个性化。


正如Xmax AI的Slogan所言:Play the World through AI(用AI玩转世界)。


技术,终将让幻想触手可及。


【抢先体验传送门】Xmax AI目前已开放TestFlight内测申请:


https://testflight.apple.com/join/8sWgKZeQ


下载APP后,在登录界面点击申请邀请码,即可抢先体验这扇通往虚实融合世界的“任意门”。


这一次,别只做观众,来做那个“被选召的孩子”。


(也可以通过Xmax AI官网https://xmax.ai/来了解更多信息)


文章来自于“Z Potentials”,作者“Z Potentials”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0