深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

7520点击 2026-02-09 17:08

图片来源：Xmax AI

如果 2024 年我们还在感叹 Sora 模拟物理世界的真实感，那么在 2026 年的今天，单纯的高清视频生成已不再是终点。

当屏幕中的虚拟角色只能被动观看，无法感知现实环境，无法回应你的触碰时，AI 视频生成实际上仍被禁锢在“预制内容”的旧范式中。而打破这层次元壁的，是一家由前华为「天才少年」创立的初创公司—— Xmax AI。

今日，Xmax AI 正式发布全球首个虚实融合的实时交互视频生成模型——X1。不同于致力于重构影视工业的文生视频模型，X1 选择了一条更为硬核且鲜有人涉足的路径：实现毫秒级的实时视频生成和低门槛的手势交互，并让虚拟内容进入现实当中。

这不仅是技术的突破，更标志着 AI 视频正在从“内容消费”向“实时体验”跃迁。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

图片来源：Xmax AI

看到这个消息的第一时间，我们就联系Xmax AI团队拿到了抢先体验资格，然后就出现了颠覆的一幕。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

手机对准桌面，选取一张滚球兽的照片。下一秒，它就“脱屏而出”，立在你的桌面上四处张望。你伸出手，它先是警惕，随后亲昵地蹭你的手心；你轻轻一捏，它会给出Q弹的物理反馈；摊开手掌，它甚至能被你稳稳“托”住。曾几何时少年梦想里的那只滚球兽，竟然真的打破次元跃入桌上。

这就是X1，不需要复杂的Prompt（提示词），不需要漫长的云端渲染等待，仅凭一个手机摄像头和最直观的手势，它就能让幻想与现实无缝融合。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

目前，Xmax AI已通过技术演示应用 X-cam beta开放了X1模型的能力体验。感兴趣的朋友可以通过testflight下载，并通过文末的方式获取邀请码，提前触摸交互式AI视频的未来。

拒绝“只看不碰”与“漫长等待”，AI视频进入“实时的人人可玩”时代

过去两年，AI视频生成领域堪称“神仙打架”。

数据显示，2024年全球AI视频生成市场规模已超6亿美元，预计2032年将突破25亿美元。在Sora、Runway等巨头的引领下，行业卷画质、卷时长、卷分辨率，致力于为影视和广告行业打造更强的生产力工具。

然而，在这场军备竞赛中，普通用户却显得有些“局外人”。

现有的文生视频工具，要么门槛高（需要像写代码一样写Prompt），要么反馈慢（生成几秒钟视频需要等待数分钟）。最关键的是，生成的视频即使再逼真，也只是一段“只能看、不能碰”的MP4文件，与此刻的你毫无关联。

Xmax AI敏锐地捕捉到了这一痛点：AI视频要真正走向大众，必须进一步降低门槛，并从“生成结果”进化为“生成体验”。

Xmax AI选择了一条截然不同的技术路线：虚实融合 + 实时交互。他们不仅要生成画面，还要让画面理解现实，并允许用户用最本能的手势去参与画面。

基于X1模型的实时生成能力，Xmax AI落地了四大核心玩法，让手机瞬间变身为连接次元的“魔法棒”：

1.次元互动：打破次元壁的触摸

如开头演示，任意上传一张角色图（动漫IP、宠物照片、毛绒玩具），打开摄像头，X1模型就能将其置入现实场景中。

这不仅仅是叠加，当你抚摸屏幕中的兔子时，X1会实时生成它“转头蹭手”的视频帧；当你的手指划过它的眼睛，还能看到绒毛因触碰而发生的细微形变。所有的物理反馈都是AI实时计算生成的，零延迟的交互让它看起来就像一个真实的生命体。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

2.世界滤镜：万物皆可“风格化”

上传一张梵高画作或乐高积木图，摄像头拍摄的现实画面就会实时转化为对应风格。这不仅是滤镜，更是实时的“世界重绘”。当你对着镜头挥手、摇头，画面中那个变成“乐高人”或“二次元纸片人”的你，会实时做出完全同步的动作。无论是用来拍视频，还是渲染游戏画面，都充满了赛博朋克的趣味。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

3.触控动图：指尖上的“提线木偶”

让静态照片“活”过来，不再需要复杂的后期软件。在触摸屏上拖拽照片中角色的耳朵，它会跟着摇头；拖动嘴角，它会露出微笑。你甚至可以上传自家猫咪的照片，通过触控让它挥拳、跳舞。X1模型仿佛赋予了静态图像以骨骼和肌肉，让用户像操控提线木偶一样轻松赋予图像生命力。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

4.表情捕手：社交破冰神器

镜头对准朋友，选择一个“愤怒”或“大笑”的Emoji，AI会瞬间捕捉对方特征，实时生成一个神态精准、魔性十足的动态表情包。摄像头变成了一个万能的“精灵球”，任何现实中的人或物体都可以被瞬间“捕捉”，成为你们之间的有趣回忆。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

华为“天才少年”领衔，破解算法+工程的“暴力美学”

在业内人士看来，X-cam看似简单的“好玩”背后，其实是极高技术门槛的工程化胜利。要实现上述效果，必须同时翻越三座大山：极致实时、精准意图理解、稀缺的高质量数据。

这正是Xmax AI团队的护城河所在。

Xmax AI拥有一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”：

创始人史佳欣：前华为“天才少年”，极客出身，对端侧AI有深刻洞察。
联合创始人梁宸：港科大（广州）助理教授、博导，学术背景深厚。
联合创始人翁跃庭：全栈工程师，“六边形战士”。
核心技术团队源自清华大学KEG实验室和HCI实验室，汇聚了国内大模型与人机交互领域的顶尖大脑，且大多拥有字节、快手、华为、阿里等大厂的实战经验。

面对技术挑战，这支团队交出了一份硬核答卷：

针对“极致实时”：他们没有沿用传统的生成管线，而是提出了端到端的流式重渲染视频模型架构。通过帧级别的自回归DiT（Diffusion Transformer）和多阶段蒸馏压缩，Xmax AI将扩散采样的速度提升了百倍，不仅将延迟压低至毫秒级，更通过自研的循环回归架构打破了时长限制，实现了无限时长的连续生成，为自然交互奠定了基础。

深度｜打破次元边界，Xmax AI发布世界首个虚实融合的实时交互视频模型X1，开启视频交互新范式

针对“意图理解”：如何让AI精准理解手势背后的交互意图？Xmax AI构建了统一的交互模型架构，让模型既能理解摄像头透视下的三维空间关系，也能理解屏幕触控下的二维操作，从而对于用户的各类交互行为，模型都能够实现精准的意图识别。

针对“数据荒漠”：虚实融合的交互数据在行业内极度稀缺。Xmax AI自主搭建了一套虚实融合数据合成管线，以半自动化方式批量生成高质量交互训练数据，这些独特的数据认知和数据管线成为了Xmax AI难以被复制的行业壁垒。

X1：Play the World through AI

如果说Sora代表了AI像导演一样去叙事、去造梦；那么Xmax AI的X1模型，则希望AI能像玩伴一样，陪你疯、陪你玩。

对于Xmax AI团队而言，X1模型和X-cam应用只是一个开始。他们不仅是在开发一款App，更是在试图定义全新的内容交互范式，以及搭建下一代内容交互引擎。

在他们的愿景里，世界的一切内容都可以通过实时AI变得可交互、变得更好玩：

未来的社交，摄像头就是“精灵球”，随时捕捉好友进行搞怪互动；
未来的游戏，不再局限于屏幕内的像素，虚拟怪物可以直接跳到你的身上；
未来的陪伴，数码宝贝、虚人将真正融入现实生活，可触碰、可感知；
未来的视频，不再只能被动观看，而是可以随时唤醒，让内容变得更加鲜活、更加个性化。

正如Xmax AI的Slogan所言：Play the World through AI（用AI玩转世界）。

技术，终将让幻想触手可及。

【抢先体验传送门】Xmax AI目前已开放TestFlight内测申请：

https://testflight.apple.com/join/8sWgKZeQ

下载APP后，在登录界面点击申请邀请码，即可抢先体验这扇通往虚实融合世界的“任意门”。

这一次，别只做观众，来做那个“被选召的孩子”。

(也可以通过Xmax AI官网https://xmax.ai/来了解更多信息）

文章来自于“Z Potentials”，作者“Z Potentials”。

关键词: AI新闻 , Xmax AI , 实时交互视频模型 , 实时交互视频模型X1

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0