Z Tech｜对话Lecun和谢赛宁爱徒，00后OpenAI奖学金博士Peter Tong：揭秘多模态大模型的革命突破

7540点击 2025-02-17 09:37

近年来，多模态大模型（MLLM）在视觉理解领域突飞猛进，但如何让大语言模型（LLM）低成本掌握视觉生成能力仍是业界难题！

北京时间2月24日周一上午10点（美西时间2月23日周日晚上6点），Z Potentials特邀Yann Lecun和谢赛宁联合培养的纽约大学博士Peter Tong（童晟邦）直播Talk，深度解析其团队颠覆性工作Cambrian与MetaMorph，揭开LLM“无痛学视觉”的终极密码！

童晟邦 (Peter Tong) 是纽约大学（NYU）Courant计算机科学系的二年级博士生，由Yann LeCun教授和Saining Xie教授共同指导。他毕业于加州大学伯克利分校（UC Berkeley），获得计算机科学、应用数学（荣誉）和统计学（荣誉）三学士学位。在本科期间，他曾是伯克利人工智能实验室（BAIR）的研究员，师从马毅教授和Jacob Steinhardt教授。

他的研究方向包括世界模型、无监督/自监督学习、生成模型和多模态大模型。研究成果多次发表在顶级会议上，例如NeurIPS、ICLR、CVPR和ICCV，并多次被接收为 Oral Paper。此外，他曾获OpenAI奖学金，并在Meta的FAIR实验室参与研究实习。他出生于中国南京，成长于澳大利亚墨尔本，热衷于推动人工智能领域的前沿研究与应用发展。

本次分享将涵盖两篇科研工作：

Cambrian-1：以视觉为核心探索多模态大语言模型

设计并评估了20多种视觉编码器

Z Tech｜对话Lecun和谢赛宁爱徒，00后OpenAI奖学金博士Peter Tong：揭秘多模态大模型的革命突破

提出了新的视觉基准测试CV-Bench

引入了动态空间感知连接器SVA（Spatial Vision Aggregator ），高效集成视觉特征和语言模型

提供了高质量的开放式视觉Instruction Tuning数据集

🔗 论文链接：https://github.com/cambrian-mllm/cambrian，模型权重、代码、相关工具、数据集均已公开。

MetaMorph：LLM的“视觉超进化”

200k数据+指令微调，让语言模型直接输出连续视觉Token

使用VPiT预测多模态Token

在生成视觉Token之前隐式执行推理步骤

🔗 论文地址：https://arxiv.org/pdf/2412.14164v1

Z Tech｜对话Lecun和谢赛宁爱徒，00后OpenAI奖学金博士Peter Tong：揭秘多模态大模型的革命突破

文章来自于“Z Potentials”，作者“Z Potentials”。

Z Tech｜对话Lecun和谢赛宁爱徒，00后OpenAI奖学金博士Peter Tong：揭秘多模态大模型的革命突破

关键词: AI , openai , 多模态 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales