Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破
4701点击    2025-02-17 09:37

近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!


北京时间2月24日周一上午10点(美西时间2月23日周日晚上6点),Z Potentials特邀Yann Lecun和谢赛宁联合培养的纽约大学博士Peter Tong(童晟邦)直播Talk,深度解析其团队颠覆性工作Cambrian与MetaMorph,揭开LLM“无痛学视觉”的终极密码!


Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破


童晟邦 (Peter Tong)纽约大学(NYU)Courant计算机科学系的二年级博士生,由Yann LeCun教授和Saining Xie教授共同指导。他毕业于加州大学伯克利分校(UC Berkeley),获得计算机科学、应用数学(荣誉)和统计学(荣誉)三学士学位。在本科期间,他曾是伯克利人工智能实验室(BAIR)的研究员,师从马毅教授和Jacob Steinhardt教授。


他的研究方向包括世界模型、无监督/自监督学习、生成模型和多模态大模型。研究成果多次发表在顶级会议上,例如NeurIPS、ICLR、CVPR和ICCV,并多次被接收为 Oral Paper。此外,他曾获OpenAI奖学金,并在Meta的FAIR实验室参与研究实习。他出生于中国南京,成长于澳大利亚墨尔本,热衷于推动人工智能领域的前沿研究与应用发展。


本次分享将涵盖两篇科研工作:


Cambrian-1:以视觉为核心探索多模态大语言模型


  • 设计并评估了20多种视觉编码器


Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破


  • 提出了新的视觉基准测试CV-Bench


  • 引入了动态空间感知连接器SVA(Spatial Vision Aggregator ),高效集成视觉特征和语言模型


  • 提供了高质量的开放式视觉Instruction Tuning数据集


🔗 论文链接:https://github.com/cambrian-mllm/cambrian,模型权重、代码、相关工具、数据集均已公开。


MetaMorph:LLM的“视觉超进化”


  • 200k数据+指令微调,让语言模型直接输出连续视觉Token


  • 使用VPiT预测多模态Token


  • 在生成视觉Token之前隐式执行推理步骤


🔗 论文地址:https://arxiv.org/pdf/2412.14164v1


Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破


文章来自于“Z Potentials”,作者“Z Potentials”。


Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

关键词: AI , openai , 多模态 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales