Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
8538点击    2025-12-11 10:59

今年 10 月,专注构建世界模型的 General Intuition 完成了高达 1.34 亿美元的种子轮融资。这笔融资由硅谷传奇投资人 Vinod Khosla 领投,这是他自 2019 年首次投资 OpenAI 以来开出的最大单笔种子轮投资,也标志着他在 LLM 之后对下一代智能范式做出的一次重大下注。


而支撑这场豪赌的理由之一就是 General Intuition 拥有一个业内无法复制的独特数据集。


General Intuition 是从游戏高光片段剪辑平台 Medal 中分拆而来,拥有超过 38 亿个游戏短视频片段。与传统机器人或仿真数据不同,Pim 认为高光片段是人类在模拟环境中的情景记忆(Episodic Memory),是对人类直觉、反应和决策最密集的数字化记录。


如果说 OpenAI 通过 ChatGPT 解决了人类的“认知与逻辑”,让机器学会了像人类一样进行复杂思考、推理与 coding,那么 General Intuition 希望赋予机器像人类一样的“直觉和物理常识”,使机器能够在本能层面理解物理世界的空间关系。


在 CEO Pim de Witte 的构想中,LLM 负责思考与规划(Next Token),General Intuition 则基于自身的数据优势承担行动与交互(Next Action),两者形成互补的智能结构。团队希望从游戏场景起步,经由模拟环境走向自动驾驶,再延伸至机器人与物理世界,终极愿景就是实现“Atoms to Atoms”的闭环,AI 不仅仅能处理比特信息,更是能直接驱动物理世界中的原子交互。


01.


General Intuition 是 Khosla 继 OpenAI 后的最大赌注


General Intuition 是一家专注构建世界模型的公益性初创公司(public-benefit corporation),公司的战略目标非常清晰,他们绝不试图重新发明 LLM,因为文本处理在某种程度上已经商品化了。他们的目标在于成为 “原子到原子”(Atoms to Atoms)时代的智能标准。Pim 引用了 Andrej Karpathy 的框架,将未来 AI 的竞争格局划分为三个阶段:


 第一阶段是 Bits to Bits,比如文本生成,由 LLM 主导;


 第二阶段是 Atoms to Bits,比如机器人感知,将现实感知转化为数字信号;


 终极阶段是 Atoms to Atoms,即机器人在物理世界中执行任务。General Intuition 希望在 2030 年,自身的模型能够驱动全球 80% 的原子级物理交互。


今年 10 月,General Intuition 完成了高达 1.34 亿美元的种子轮融资。这笔融资由硅谷传奇投资人 Vinod Khosla 领投,这是 Khosla Ventures 自 2019 年首次投资 OpenAI 以来开出的最大单笔种子轮投资。


Vinod Khosla 是风险投资公司 Khosla Ventures 的创始人,Khosla Ventures 曾在 2019 年向 OpenAI 投入约 5000 万美元的早期投资;并在 2024 年通过 SPV 为 OpenAI 募集了约 4.05 亿美元(该笔资金据报道主要由其他投资者通过该 SPV 出资,不一定全部来自 Khosla Ventures 自身)。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


Khosla 对 General Intuition 的投资逻辑类似当年下注 OpenAI:通过第一性原理推演,发现了一条极具变革性的技术路径。如果说 OpenAI 通过 ChatGPT 解决了人类的“认知与逻辑”,让机器学会了像人类一样进行复杂思考、推理与 coding,那么 General Intuition 正试图攻克的是 AI 的另一半版图,也就是“直觉与物理交互”。General Intuition 希望赋予机器像人类一样的“直觉”,使机器能够在本能层面理解物理世界的空间关系。


在 Khosla 决定是否投资 General Intuition 的一场深度对话中,Khosla 要求创始人 Pim de Witte 不要在当下的技术细节中纠缠,而是画出一幅 2030 年的公司终极愿景图,并要求他从那个未来的时间点,严格依据第一性原理倒推今天的每一步技术与商业路径。由此可见,Khosla 寻找的不仅是技术天才,更是那些拥有宏大愿景、能经受住对任何底层假设进行严苛拷问的战略家。


02.


核心资产:38 亿个短视频游戏片段


General Intuition的诞生并非凭空而来,而是从拥有十年历史的游戏高光时刻剪辑平台 Medal 分拆而来。这段前史为 General Intuition 积累了不可复制的数据资产。


Medal 是一个让玩家截取、保存并分享游戏“高光时刻”短视频的社交平台,用于记录与传播游戏剪辑。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


在 General Intuition 决定独立融资前,OpenAI 就曾敏锐地察觉到 Medal 所掌握数据的稀缺价值,开出了高达 5 亿美元的收购要约,希望买下这些数据用于训练模型。但 Pim 拒绝了,他清醒地意识到,自己手中掌握的不仅是数据,而是通往下一代空间智能的钥匙。与其将这些珍贵的资产卖给巨头,不如自己构建模型。


据 The Information 的报导,OpenAI 在 2024 年曾想要以约 5 亿美元收购 Medal 来获取数据,但该笔交易并未公开确认或完成,OpenAI 与 Medal 或 General Intuition 双方对此报道未作官方评论。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


General Intuition 拥有人类行为的“情景记忆”


General Intuition 目前拥有超过 38 亿个游戏短视频片段。数字背后,更关键的是数据的质量与密度,因为 Medal 与 Twitch 或 YouTube 存在本质区别,Twitch 本质上是流媒体直播,它记录的是漫长、连续且往往充斥着无聊跑图过程的游戏画面;而 Medal 更类似于游戏界的 Instagram,它是一个基于 “回溯录制机制”(Retroactive Clipping)的工具。


这种机制与 Tesla 的自动驾驶 Bug 报告系统有类似之处。在 Tesla 的逻辑中,只有当驾驶员进行干预或发生特殊情况时,数据才会被标记为高价值并上传。同样,在 Medal 上,软件在后台静默运行,玩家并不需要时刻录像,只有当游戏中发生了精彩瞬间(如完成一次高难度的击杀、达成成就或发生搞笑的意外)时,玩家才会按下键盘,保存过去 30 秒到 2 分钟的片段。


这意味着 General Intuition 的数据集天然经过了人类的“筛选”,剔除了 99% 毫无意义的垃圾时间,只保留了“人类高光行为”。Pim 将这个描述为人类在模拟环境中的情景记忆(Episodic Memory),是对人类直觉、反应和决策最密集的数字化记录。


此外,这种数据还包含了极其宝贵的“负样本”。例如在卡车驾驶模拟这类游戏中,玩家撞车或翻车的瞬间往往也是他们最想保存并分享的时刻。对于 AI 训练而言,知道“什么会导致失败”与知道“如何成功”同样重要,这些负样本为训练 Reward Model 提供了完美的素材,使模型能够理解并在未来避免灾难性后果。


如何将硬件操作转化为游戏动作?


普通的视频数据只有像素(Pixels),也就是说,当 AI 观看 YouTube 上的游戏视频时,它只能看到“发生了什么”,比如准星移动到了敌人头上,却不知道“为什么发生”,比如玩家的手是如何移动鼠标的。如果要从纯视频中反推操作,AI 需要先解决姿态估计(Pose Estimation),再进行逆动力学分析(Inverse Dynamics),最后还要猜测玩家的眼动和神经反应延迟。这中间存在三层信息的丢失,导致训练出的模型往往“也就是看看”,难以真正学会操作。


但 General Intuition 的数据不仅包含视频画面,还通过 Medal 的底层技术,同步记录了玩家在每一帧画面下的具体操作输入,这意味着 General Intuition 拥有数十亿小时的“人类操作(因)”与“屏幕反馈(果)”的完美配对数据:


 感知(Perception):玩家看到屏幕画面。


 行动(Action):玩家做出操作,比如移动鼠标、点击。


 状态更新(State Update):游戏画面根据操作发生变化。


而且在数据收集的早期,General Intuition 就非常有远见地处理了隐私问题,这在今天成为了他们合规训练模型的基础。具体来说,他们并没有简单粗暴地记录键盘上具体的“W、A、S、D”按键或用户聊天内容,因为这可能涉及输入密码或私人对话等隐私风险。相反,他们建立了一套映射机制,将底层的硬件输入直接转化为通用的动作标签,如“向前移动”、“跳跃”、“开火”。


过去一年半,General Intuition 雇佣了数千名人工标注员,将不同游戏中的操作映射为标准化的动作空间。这种处理方式不仅规避了隐私风险(因为只有动作意图,没有原始按键日志),还使得数据具有了跨游戏的通用性,因为无论是在哪个游戏中,“跳跃”这一动作的逻辑是相通的。


此外,Medal 独特的覆盖层(Overlays)技术也是数据的一大特色。许多玩家喜欢在视频上叠加显示自己的按键操作或手柄状态(类似于赛车游戏中的仪表盘),这种视觉化的输入反馈,进一步增强了模型将“视觉信号”与“物理动作”对齐的能力。


正如 DeepMind 的 SIMA(Scalable Instructable Multiworld Agent)所展示的那样,通过在少量游戏上进行训练,AI 展现出了一定程度的泛化能力。而 General Intuition 手中的数据规模,据 Pim 估计,比目前互联网上其他带动作标签的视频数据集要高出 1-2 个数量级。这种无法复制的数据护城河,让 General Intuition 能够在巨头林立的 AI 战场上,拥有了独立生存并挑战 AGI 的底气。


DeepMind 的 SIMA(Scalable Instructable Multiworld Agent)是一个 AI agent,能够在多种 3D 虚拟环境、视频游戏中,通过观察画面、接受自然语言指令,然后用“键盘鼠标”动作执行任务。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


算力硬件的红利


需要注意的是,General Intuition 之所以能在这个时间点崛起,除了数据的因素外,还得益于一个关键的时代背景:算力硬件的红利。Pim 在访谈中多次强调,消费级 GPU 算力的指数级爆发,是让 General Intuition 的技术路线在经济上可行的前提条件。


Diamond 论文的发表是一个分水岭,它向业界证明了复杂的世界模型可以在单张消费级显卡上以 10 FPS 甚至更高的帧率流畅运行。这一技术突破的商业含义是巨大的,因为这意味着 General Intuition 训练出的庞大模型,最终可以被“蒸馏”或优化,直接运行在玩家自己的电脑上,无需依赖昂贵的云端集群。


Diamond 论文指的是 Diffusion for World Modeling: Visual Details Matter in Atari,这是一篇发表于 2024 年的论文,提出了一个基于扩散模型的世界模型用于强化学习。相比传统压缩为离散潜变量的 world model,Diamond 保留了环境的视觉细节,从而在 Atari 100k 基准上取得人类标准化平均分 1.46 的新纪录。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


这重塑了 AI 公司的商业逻辑。对于 LLM 公司而言,高昂的推理成本始终是悬在头顶的达摩克利斯之剑,因为每一次对话生成都必须在云端昂贵的 H100 集群上完成,边际成本难以降低。而对于 General Intuition 来说,独特优势在于游戏玩家天然拥有高性能显卡,General Intuition 可以采取端侧推理的策略,将计算任务下放到用户的本地设备。这不仅消除了云端推理成本,还解决了网络延迟问题,使实时、低延迟的游戏内 AI 交互成为可能。


正如 Pim 所言,General Intuition 最大化地利用这一波算力硬件红利。他们不需要等待遥不可及的量子计算机,当下的消费级显卡已足够强大,可以承载一个理解物理世界、具备通用直觉的 agent。


03.


技术路径与 Demo 展示


Pim 认为,传统的视频生成模型往往只预测下一帧画面中“最有趣”或“最可能”发生的序列 ,而真正的世界模型必须理解当前状态下的所有可能性,并基于具体的 Action 准确生成随之改变的 Next State。这意味着模型生成的不仅仅是像素的流动,而是一个基于因果律的、准确的未来世界。


在访谈中,Pim de Witte 向 Latent Space 展示了 General Intuition 训练的 agent 在一款射击游戏中进行实时对战的画面。这不是一段预渲染的视频,而是一个正在实时运行的、纯基于模仿学习的 agent。


基于视觉的工作方式


这个 demo 最核心的技术特征在于 Vision-Based(基于视觉)的工作方式。Agent 完全不依赖游戏底层代码逻辑:它不使用任何内部 API,也不会读取内存中的坐标或游戏状态,而这些都是传统游戏外挂或脚本常见的“作弊”手段。相反,它就像坐在屏幕前的玩家一样,只通过“看到”的屏幕像素来理解环境、识别敌我,并直接生成鼠标与键盘输入来决定下一步动作。


Pim 还展示了模型在四个月前的早期版本与当前版本的对比。早期的 agent 虽然具备基本的导航能力,但经常会卡住,需要依靠大约四秒钟的短时记忆来尝试调整位置来脱困。而现在的版本在数据量和算力都扩展后,已经能流畅地在复杂地图中穿梭,表现出极高的稳定。


这种仅依赖视觉信号的训练方式意味着 AI 具备极强的泛化性,不需针对每款游戏适配底层的代码接口,理论上,这种通用的配方可以被无缝迁移到任何具有屏幕反馈的软件界面,甚至是现实世界中通过摄像头观察环境的机器人身上。


模仿学习带来的拟人化


Demo 中的 agent 还表现出了惊人的“人性化”特征,这种特质在传统的游戏脚本中几乎是不存在的,这归功于 General Intuition 采用的大规模 Imitation Learning(模仿学习)路径:agent 不是在通过奖励函数自我博弈,而是在学习数百万人类玩家的真实行为模式。


传统的游戏 Bots 操作往往生硬、机械,准星移动是瞬间锁定的直线。而 General Intuition 的 agent 在 demo 中展现了极具人类特征的细腻操作:它的准星移动带有自然的平滑曲线,而且 agent 甚至学会了人类玩家特有的“坏习惯”或“无意义动作”。


例如,Pim 在 demo 中指出,agent 会时不时地按下 Tab 键查看计分板,或者在跑动时无聊地切刀挥舞。这些动作对游戏胜利本身毫无帮助,但却是人类玩家下意识的习惯,而 AI 完美复刻了这些细节,证明它真正理解并模仿了人类与环境交互的全貌,而不仅仅是追求分数的局部最优解。


此外,由于训练数据来自 Medal 上经过筛选的精彩片段,这些数据本质上代表了人类高光行为。模型通过观察这些高水平的操作,自然学会了高级的博弈策略。在 demo 中,当 agent 需要装填弹药时,它并非像普通脚本那样原地傻站,而是立刻寻找掩体进行躲避,这是一种非常依赖直觉的高级生存本能。Pim 强调,这种能力并非来自人工编码的规则,而是模型从海量数据中涌现出的通用直觉。


物体恒存性


物体恒存性(Object Permanence)指的是即使物体暂时不在视线中,人也知道它仍然存在。这是婴儿在发展过程中逐渐形成的一项基本认知能力。


在 demo 的一个片段中,敌人跑进了一团浓密的烟雾弹中,或者躲到了墙壁之后,也就是在视觉层面上,敌人已经完全从屏幕像素中消失了,构成了 Partial Observability(部分可观测性)的挑战。对于传统的计算机视觉或简单的脚本机器人来说,目标丢失通常意味着停止射击。然而,General Intuition 的模型做出了令人惊讶的反应:即便在视线完全被遮挡的情况下,agent 依然能够锁定目标的位置。


这证明模型理解了一个深刻的物理概念:物体虽然看不见,但并没有凭空消失。它在“脑海”中构建了一个 3D 空间的时空模型,能够根据敌人消失前的速度和轨迹,推测敌人在不可见空间中的运动位置。这表明模型不仅仅是在做像素匹配,而是真正产生了对物理规律的理解,特别是对 Object Permanence(物体恒存性)的掌握。


此外,demo 还展示了模型在物理一致性上的惊人细节。Pim 特别提到,在一段包含爆炸场景的生成中,世界模型生成的画面出现了镜头晃动。有趣的是,这种晃动在原版游戏中可能并不存在或者不明显,但因为模型在大规模的真实视频(如电影或实拍视频)中学习过“爆炸会导致震动”这一物理规律,它将这种真实的物理反馈“迁移”到了游戏画面的生成中。这表明,AI 正在通过视频学习构建一套跨越虚拟与现实的通用物理法则,而不仅仅是死记硬背游戏的渲染规则。


04.


General Intuition 与 LLM 的关系是互补而非竞争


在如今的 AI 讨论中,一个常见的误区是将不同的技术路线视为零和博弈。然而,在 General Intuition 的架构设计中,Pim de Witte 和 Vinod Khosla 都强调了一个核心观点:General Intuition 的空间智能技术与 LLM 的关系是互补,而非竞争。


LLM 掌握语言和逻辑,General Intuition 掌握直觉和物理常识


要理解为什么有了 GPT-4 还需要 World Model,首先必须理解“文本”的本质。在访谈中,Pim 表示人类发明文字,本质上是为了在一个三维世界中进行高效沟通而创造的一种压缩方法。


当我们用文字描述一个场景,比如“把桌上的杯子拿给我”时,我们实际上对现实世界进行了极度的高维压缩。在这个过程中,大量的时空信息被丢弃了,比如杯子的具体形状、桌面的摩擦系数、光线的折射、手部肌肉需要施加的精确力度等,都没有包含在这句话的文本信息中。


而 LLM 是基于互联网上的海量文本训练的,它们极其擅长处理这种“压缩后”的符号逻辑,因此在逻辑推理、代码生成和宏观规划上表现出色。然而,正如 Yann LeCun 曾指出的,单纯依赖文本的自回归预测(Auto-regressive Prediction)可能是一条死胡同,因为它无法理解物理世界的连续性和因果律,这一观点也深深影响了 General Intuition 的创立。


General Intuition 正在做的是处理那些被文本压缩掉的数据,即建立从像素到动作的直接映射。如果说 LLM 掌握了人类的语言与逻辑,那么 General Intuition 的模型则掌握了人类的直觉与物理常识。


LLM 是指挥官,General Intuition 是执行者


Pim 认为,在未来的 AI 架构中,LLM 扮演的是 Orchestrator(指挥官)的角色。它像一个“木偶操纵师”,负责处理高层的语义理解和任务拆解。例如,当用户指令是“去厨房给我拿一杯咖啡”时,LLM 负责理解意图、规划路径(先去厨房,再找杯子,再倒咖啡)。


而 General Intuition 的世界模型则是执行者。它负责处理毫秒级的视觉输入和肌肉控制。当机器人伸手去抓杯子时,它不需要语言模型的介入,而是依赖 General Intuition 的模型来实时判断手指的弯曲角度、根据杯子的材质调整抓握力度,并在行走过程中避开突然出现的椅子腿。


这种分工解决了 LLM 在落地物理世界时面临的两个致命问题:


1、推理延迟过高,无法应对实时环境;


2、缺乏物理直觉,容易出现因“幻觉”导致的物理动作失败。


Pim 认为,通过将高层规划(LLM)与底层直觉(General Intuition)解耦,agent 才能真正从屏幕中走出来。


Next Token vs Next Action


从底层的预测目标来看,LLM 和 General Intuition 的区别会更加本质。


 LLM 的核心任务是 Next Token Prediction(下一个词预测),在离散的符号空间中工作;


General Intuition 的核心任务是 Next Action/State Prediction (下一个动作/状态预测),在连续的物理空间中工作。


Pim 认为,未来的 AI 系统可能会出现一种类似 DeepMind SIMA 项目所展示的架构:利用 Gemini 这样的多模态大模型作为通用的认知中枢,去调用和指挥专门针对特定物理环境(如游戏、模拟器或现实世界)训练的 World Model。


05.


商业化落地


General Intuition 的商业化蓝图并非一蹴而就的科幻构想,而是一条经过精密计算的、分阶段推进的战略路线图。


第一阶段:游戏产业


对于 General Intuition 而言,游戏产业不仅仅是数据的来源地,更是最直接、最快速的商业变现渠道。公司的战略重心非常明确:为游戏开发者提供一个能够替代传统脚本系统的通用智能层。目前 General Intuition 已经开始与全球最大的几家游戏开发商及游戏引擎公司展开合作。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


 产品形态是 API


General Intuition 的核心产品形态是一个极其简洁的 API。在传统游戏开发中,开发者往往需要编写复杂的行为树(Behavior Trees)或确定性的代码来控制 NPC。而 General Intuition 正在改变这一现状,目标是替换掉游戏引擎中的“玩家控制器”。游戏引擎只需将实时画面帧流式传输给 General Intuition,模型便会实时返回预测的动作指令 actions。这种模式本质上是用一个基于视觉的通用 AI 替换了传统的硬编码逻辑,使得游戏角色能够展现出更自然、更具适应性的行为。


 解决的痛点是充当“智能替补”


在多人在线游戏中,Pim 指出,当玩家在非高峰时段(例如美国时间的凌晨 3 点)登录游戏时,如果匹配不到真人对手,游戏体验会大打折扣,会直接导致用户流失。传统的解决方案是用简单的 Bots 填充,但这些机器人往往行为呆板、容易被识破,甚至破坏游戏乐趣。General Intuition 提供的 AI 能够展现出与真人无异的操作水平和战术风格,可以完美充当 “智能替补”。


更重要的是,由于 Medal 拥有海量数据,General Intuition 清楚地知道不同水平玩家(从菜鸟到职业选手)的行为特征,因此可以生成特定技能等级的 AI 来匹配对局。对于开发商而言,这相当于拥有一个随时在线、水平可调的“影子玩家库”,意味着无论何时都能保证满员的游戏对局,从而极大提升玩家留存率。


第二阶段:模拟环境,以自动驾驶为例


如果说游戏是练兵场,那么 Simulation(模拟环境)就是连接虚拟与现实的桥梁。Pim 在访谈中指出,在现实世界中采集数据,例如维持一支庞大的自动驾驶车队,不仅极其昂贵,而且效率低下,且很难捕捉到关键的长尾数据。General Intuition 的逻辑是利用虚拟世界的低成本数据,对现实世界的模型进行 pre-training。


Pim 以 Waymo 与卡车模拟游戏的数量对比为例:在 Medal 平台上,任何时刻使用方向盘外设玩 EuroTruck Simulator(一款欧洲卡车驾驶模拟游戏)的玩家数量,都要远多于 Waymo 在路上行驶的自动驾驶车辆。这些玩家在高度逼真的物理引擎中驾驶,遵守交通规则,处理各种路况,甚至会发生车祸。这种基于真实物理外设(如方向盘、踏板)的大规模分布式数据采集,是任何单一公司难以企及的。


更重要的是,Medal 能获取负样本。在现实中,为了安全,自动驾驶公司都极力避免车祸,导致模型极度缺乏处理极端事故的数据。而在游戏中,撞车、翻车是常态,Medal 拥有海量标注了“Crash”的视频片段。这些数据本质上是情景记忆,记录了导致灾难发生前的完整因果链条。General Intuition 的模型可以通过这些数据学会识别危险的前兆,这正是自动驾驶公司花费数年时间试图攻克的“最后 20%”难题。


Pim 表示,如果一个模型在模拟环境中已经学会了通用的驾驶直觉,那么由于直觉是通用的,现实世界的自动驾驶公司在接入该模型后,可能只需要原本 1% 或 10% 的真实路测数据进行 Post-training 微调,就能达到同样的安全性。这种通过 Sim2Real 迁移带来的数据成本大幅降低,是 General Intuition 在中期最具爆发力的商业价值。


第三阶段:机器人与物理世界


General Intuition 的终极愿景是实现“Atoms to Atoms”的闭环,即让 AI 不仅仅能处理比特信息,更是能直接驱动物理世界中的原子交互。


Pim 设想的 2030 年图景是 General Intuition 将成为智能的“金标准”(Gold Standard),也就是说,在未来的机器人、物理交互市场中,大约 80% 的基础原子交互(如抓取、移动、避障、导航)将由 General Intuition 的通用大模型驱动。这是因为无论是在工厂流水线还是家庭服务场景,基础的空间理解和物理直觉是共通的。剩余的 20% 则由各家机器人公司针对特定硬件或垂直场景进行专门的微调(如特定的人机交互 OS)。


更进一步,Pim 认为在机器人领域,智能一直是最大的瓶颈,一旦智能得到突破,机器人供应链会迅速收敛到以“游戏式输入方法”为主的交互方式。这意味着,随着机器人硬件(如手臂、底盘)的控制接口变得像游戏手柄一样标准,General Intuition 在游戏数据上训练出的、针对游戏手柄的动作预测模型,可以直接“映射”去控制这些机器人,而无需重新发明一套控制语言。


此外,Pim 还特别提到科学模拟的潜在价值。Pim 表示团队的终极愿景是将科学问题表征为三维空间问题,让具备空间智能的 agent 能够像生物学家折叠蛋白质那样,在微观或宏观的模拟世界中进行科学探索。


06.


创始团队


Pim de Witte:CEO & Co-founder


Pim de Witte 是 General Intuition 的 CEO & Co-founder。他在青少年时期就沉浸在代码与视频游戏的世界中,是典型的黑客出身。在创立 Medal 之前,他曾运营过当时最大的隐私工具列表,还曾在无国界医生组织(Médecins Sans Frontières)工作过三年,利用技术支持埃博拉疫情的灾难响应,例如基于卫星地图生成地形。这些经历塑造了他独特的思维方式:倾向于通过逆向工程来理解复杂系统,这是一种极致的演绎推理,也成为后来他理解 AI 模型的底层逻辑。


2025 年 Pim de Witte 成立 General Intuition。与许多只关注高层战略、不懂底层技术的 CEO 不同,Pim 是一位对技术细节有深刻理解的产品技术型领袖。在 Medal 早期,他亲自编写了底层的视频转码器,这让他对 CUDA 编程、GPU 的显存带宽以及延迟优化有着硬核认知。他清楚视频数据在显卡中流动的每一个环节,这种对 infra 的掌控力成为了 General Intuition 后来构建大规模视频训练集群的基石。


而且 Pim 在面对大模型这一新领域时表现出了极强的学习韧性。在访谈中,他坦言自己最初对模型本身感到陌生,觉得那像是另一种语言。为了弥补这一短板,他在去年夏天系统性地完成了 Francois Fleuret 的深度学习课程,从线性代数、微积分一路学到神经网络的构建。


为了真正从第一性原理层面理解技术路线的选择,他尝试从零开始用 PyTorch 编写了一个基础的物理引擎。这样做的目的是为了亲自验证:为什么我们不能只靠模拟,而必须依赖视频生成?通过亲手编写代码,他意识到模拟的计算复杂度随着变量(如 agent 数量、自由度)的增加呈指数级上升,从而坚定了他对视频生成模型的押注 。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


团队文化


General Intuition 的团队建设哲学可以概括为:追求最高的“人才密度”,而非盲目扩张规模。Pim 将自己比作“刚拿到驾照的司机”,虽然自己理解原理,但真正的驾驶还是要交给世界级的 F1 车手,也就是那些在领域内最顶尖的研究员。


General Intuition 的核心研究团队由一群在世界模型领域具有开创性贡献的学者组成。例如,领导研究的 Anthony Hu 曾是 GAIA (自动驾驶生成模型)的核心研究负责人;Vincent Micheli 则是 Diamond 论文的作者之一。


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型


这些研究员之所以选择离开 DeepMind 等大厂加入 General Intuition,就是因为他们看懂了 General Intuition 手中那个独一无二的数据集所蕴含的潜力。当他们意识到 Medal 的数据不仅仅是视频,而是包含了动作标签的完美训练集时,他们看到了将世界模型扩展到更大规模的可能性。


此外,Pim 表示 General Intuition 正在努力复兴 AI 领域的“开放研究文化”。在 OpenAI 和 Google 变得越来越封闭的背景下,General Intuition 反其道而行之:公司最近宣布了与法国顶尖的开放科学实验室 Kyutai 建立合作伙伴关系,该实验室由 Eric Schmidt 等人资助。Pim 认为,General Intuition 拥有深厚的数据护城河,不需要像其他公司那样通过“保密”来维持优势,因为即便公开了模型架构,没有数据也无法复现。相反,通过与学术界和开源社区的合作,例如利用印度卡车数据构建负样本预测模型以减少交通事故,General Intuition 能够吸引更多渴望分享知识的顶级大脑,形成一种开放式的创新生态。


Reference


World Models & General Intuition: Khosla's largest bet since LLMs & OpenAI|https://www.youtube.com/watch?v=A2P3Q3LCoLw


文章来自于微信公众号 “海外独角兽”,作者 “海外独角兽”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales