LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架,CineCtrl 通过解耦交叉注意力机制,摆脱了多控制信号共同控制的效果耦合问题,实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。
智东西12月19日报道,由三名00后武汉大学校友创办的大模型领域科技创企模态跃迁(MercAllure),已完成两轮累计数千万元融资,投资方包括深圳高新投、力合科创、楚天凤鸣天使基金、武汉基金、奇绩创坛等机构。
美国能源部联手OpenAI、谷歌等24巨头,启动国家AI「创世纪计划」!从此,硅谷+白宫联手,核能、量子、材料科学将实现新突破。媒体称:AI曼哈顿计划,正式启动了。
AI产业的发展遵循着典型的“基础设施→核心技术→行业应用”的科技产业化路径。当下,AI产业正在经历从“技术突破”转向“应用落地”的关键阶段。
“暗涌Waves”独家获悉,AI硬件设计生成平台“指数科技”近日完成了近亿元人民币的Pre-A轮融资,由云启资本领投,誉尊资本、尚势资本跟投。而在此前的2024年,指数科技在刚成立不久、只有demo时,已完成由启赋资本和华盖资本联合领投的天使轮融资。
科技赛道从不缺“造梦者”,但能精准击中行业痛点的“破局者”往往寥寥。
如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。
大模型时代,基础模型卷到飞起,参数规模爆炸再爆炸,但谈到落地应用,产业端反馈出的问题依然明显:
当李飞飞指明空间智能是 AI 的下一站时,行业才猛然发现,通往这一站最关键的「数据船票」,其实早就握在了这位行业老兵手中。