近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!
北京时间2月24日周一上午10点(美西时间2月23日周日晚上6点),Z Potentials特邀Yann Lecun和谢赛宁联合培养的纽约大学博士Peter Tong(童晟邦)直播Talk,深度解析其团队颠覆性工作Cambrian与MetaMorph,揭开LLM“无痛学视觉”的终极密码!
童晟邦 (Peter Tong) 是纽约大学(NYU)Courant计算机科学系的二年级博士生,由Yann LeCun教授和Saining Xie教授共同指导。他毕业于加州大学伯克利分校(UC Berkeley),获得计算机科学、应用数学(荣誉)和统计学(荣誉)三学士学位。在本科期间,他曾是伯克利人工智能实验室(BAIR)的研究员,师从马毅教授和Jacob Steinhardt教授。
他的研究方向包括世界模型、无监督/自监督学习、生成模型和多模态大模型。研究成果多次发表在顶级会议上,例如NeurIPS、ICLR、CVPR和ICCV,并多次被接收为 Oral Paper。此外,他曾获OpenAI奖学金,并在Meta的FAIR实验室参与研究实习。他出生于中国南京,成长于澳大利亚墨尔本,热衷于推动人工智能领域的前沿研究与应用发展。
本次分享将涵盖两篇科研工作:
🔗 论文链接:https://github.com/cambrian-mllm/cambrian,模型权重、代码、相关工具、数据集均已公开。
🔗 论文地址:https://arxiv.org/pdf/2412.14164v1
文章来自于“Z Potentials”,作者“Z Potentials”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales