ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
北大袁粒:用户不会为只能“闲聊”的大模型买单 | 中国AIGC产业峰会
5098点击    2024-05-20 20:57

大模型能力与日俱增,如何将其转化为生产力?


中国AIGC产业峰会上,北京大学深圳研究生院助理教授袁粒给出了他的看法:


如果大模型只会闲聊,用户是不会买单的,唯有打造垂域应用,才能把大模型变为生产力。


袁粒专注于多模态深度学习研究方向,一作论文单篇被引用千余次。


屡屡登上热搜的ChatExcelChatLaw等垂直领域产品,都是出自他的团队。最近,由他们发起的Sora复现计划“OpenSora”,更是引发了广泛关注。



为了完整体现袁粒的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。


中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。


话题要点


  • 用来闲聊的玩具并不能满足用户真正的需求,将大模型转化为生产力的关键,在于垂域应用。
  • 要做好垂域应用,必须先解决大模型的幻觉问题,一个重要方法就是检索增强生成(RAG)。
  • AI发展到今天,开源世界的贡献功不可没,正是有很多开源模型才推动了AI领域的繁荣。


以下为袁粒演讲全文:


怎样将大模型转化为生产力


我今天主要是来讲讲我们在多模态模型垂域上面的应用,主要是我们自己团队的工作。


首先引用浙大赵(俊博)老师的拷问,你会为一个闲聊的玩具买单吗,这是当Chat系列模型出来后,大家都会思考的。



同时在去年5、6月份,ChatGPT用户量出现了微跌,也就是说如果大家只是为了一个聊天去用一个产品,肯定是不够的,需要实实在在的转化成生产力,生产力由什么转化,就是垂域应用


我们知道后来OpenAI动作很快,推出了GPT store,也就是GPT的商店。


我认为GPT商场中的每一个应用,就是一个垂域的产品。我们的团队也是做了一些多模态垂域的开发,包括ChatExcel、ChatLaw,既有语言生成应用,也有视觉生成的一些模型。


我们的基础平台是基于鹏城的云脑加上我们自建的算力,以及通用和行业的数据来进行应用的开发的。


我们先来简单看看一些代表性工作。


第一个就是数据垂域的应用ChatExcel,它其实是早于微软的Copilot发布的,在2022年下半年开始研发,23年2月发布。


一开始的想法很简单,是2022年下半年的时候,我的一个博士生告诉我,他说老师,我想给女朋友减负。


因为他的女朋友是一个高校的信息老师,天天要处理很多表格,大家也知道企业有很多“表哥、表姐”。所以当时我觉得这个想法很好,背后代表了大家普遍的需求,所以就出来了ChatExcel。



我们看看在第一版的时候,线上能体现到这边这一部分,用文字直接操纵表格,其实WPS当前也已经能做这到一步,因为我们从2022年下半年到2023年初发布。


当然在这个之后,我们进行了升级,升级成一个多模态的模型,这个视频放一下,这也是我们目前部署给某奢侈品巨头的一个真正落地的case,大家可以看到已经不是单模态,能进行数据的可视化,以及能进行一些营销的处理,包括帮你分析这个产品哪一个明星来代言会更好。


我们ChatExcel孵化了一家企业,这个是我的学生创业做的一件事情,我也很支持他。如果大家感兴趣可以在互联网上搜到。


打造垂域应用,要先解决幻觉问题


第二个应用是ChatLaw,ChatLaw是中文法律垂域应用。


ChatLaw这个应用的动机很简单,就是在食堂和一个法学院的老师吃饭的时候,他说我们北大的法律比清华还是好的,但是法律科技在那个时候没有拥抱大模型,我们是否能做一些法律上面的东西。


所以我们一起合作做出来这个ChatLaw的模型。


其实这个很简单,思路就是用户提出需求,我们用Agent进行模型的调度、处理,最后提供法律助手服务,包括信息的分析、结构化抽取,同时能够为用户包括律师生成一些大家所熟知的诉讼状,一些文本的文件,这个是可以给普通用户,同时也可以帮律师。


当然我们目标从来不是替换律师,而是成为律师的助手,替换一些底层重复性的工作


我们可以看看一些简单的能力,有人被裁员之后去问我的模型,我的模型会让他上传合同和HR沟通录音,然后给他分析事实,最后给出建议。


基于这个建议,我们告知他其实被裁员之后可以走劳动仲裁,仲裁流程以及劳动仲裁申请书都可以由ChatLaw生成,还会推荐一些类似的案例和判决结果。


同时我自己的学生,以及我个人,也有从这个模型中受益,这是当时ChatLaw内测的时候,我的学生身上发生的真实案例。


我的学生想买一个车,在4S店试驾,结果就遇到了一个法律问题。


一般情况下,在试驾的时候需要签一份“免责协议”,大概内容是如果开着这个车出了交通事故,责任完全由试驾人员承担,4S店则不承担责任。


当时我的学生被4S店告知,要么把这个车买下来,要么在完成定损之后全额赔偿。


当时ChatLaw正好在内测,我的学生就问了模型,我的模型最后给他的答案是,4S店的“免责协议”违背了《侵权责任法》第42条(现《民法典·侵权责任编》第1203条)的规定。


同时,ChatLaw也给这个学生生成了一份调解建议书,阐明了因为这个产品归属于4S店,所以这个“协议”属于霸王条款。


于是,这名学生拿着法律依据以及生成的文书给4S店,然后4S店对这件事情就没有再过问了,不了了之了。


虽然我的学生最后买的也是这款车,但没有在这家4S店。


这就是法律真正在普惠个人,包括我个人在现在生活当中一些小问题,也会问模型,因为很多时候它确实有效。


当然,大家也许会说,通用模型本身也能回答大家的这些法律问题。


但是通用模型有一个问题——在专业领域,最大的问题是幻觉问题,俗称“一本正经地胡说八道”。


大家知道如果问ChatGPT,“林黛玉倒拔垂杨柳”是怎么回事,ChatGPT会把这个过程说得非常清晰生动,甚至最后林黛玉的性格都能分析出来,说是《红楼梦》某一回的,这种问题非常严重。



去年上半年我们开发垂域模型的时候就知道,垂域模型必须要解决幻觉问题,所以我们当时提出来,现在大家都很熟知这个词叫检索增强生成


那个时候确实是我们首次做出来的,只是我们没有把这个概念提出来,让大模型做大模型的事情,让检索做检索的事情。


当然这套框架,大家感兴趣可以读论文,我们也开源了一部分模型,但是商业版比开源模型更好。


其实简单说就是用检索的方式在数据库里面提取出一个参考信息,让这个检索参考信息抑制或者缓解模型的幻觉,尤其是发动“紧急立法权”编造法律条文这种重大问题。


这也是通用模型和垂域模型一个重要的差异,尤其在法律这种严肃的场景下一定要考虑这个问题。


“开源版Sora”是产业的期待


做完垂域应用的时候,当然大家可能说,一个高校团队好像做的事好多,确实,为什么?


因为我们在高校里面,不是追求必然的商业化,而是做有意思的科研和有意思的事情


我最后介绍的一个东西是联合实验室最近的一项工作,叫做Open-Sora Plan,Sora的开源计划。


我刚开始发起这个计划的时候,很多人问说为什么叫复现,不叫超越。


我说我们还是要实事求是,我们离国外的大模型还是有一定差距,我们能把它复现出来,尤其我们作为高校团队,在算力和数据资源都有限的情况下,我们能复现出一版tiny Sora已经不错了。


而且我们这个是开源项目,我们选用的是MIT license,同时所有的人都可以无条件的用我们开源的数据和模型。


当然我们大家知道,在大语言模型ChatGPT出来的时候,其实还没有开源的模型,整个商业界或者整个产业界和学术界都比较难受——学术界没有研究对象,商业的生态也没有繁荣。


所以后来有了Meta的Llama,我们这个开源的目标就是能否做出一版视觉版的Llama。


这个事情为什么想在高校做,因为高校的姿态是中立,所有人都可以受益,我们拿的是纳税人的钱,做的事情繁荣了生态,也就没有浪费他们的钱。


所以我们想做这件事情。



于是我们很快把这套框架搭起来了,这个框架分为三个部分——视频编解码器、Diffusion Transformer,以及条件注入。


我们把这个框架搭起来之后扔给开源世界,整个开源世界,尤其在推特上面发布之后,对此是很支持的。


我们最看重是技术社区的评价,因为它才是大家真正从技术角度考虑的结果。我们也很快在GitHub上登了第一,目前Star超过 10K。我们这个特点是什么?


我觉得Sora这条技术路线的优势是能生成长时视频,原因之一是因为在训练的时候,喂给了它很长的视频片段。


所以里面核心模块之一是第一部分Video VAE,就是视频编解码,需要对视频进行压缩,因为无法将一个1分钟的视频直接放在一个80G显存的显卡。


所以我们在Video VAE做了很多工作,目前Video VAE能够对视频进行压缩,而且压缩完之后能重建保持高清晰度。


我们现在能够把1分钟1080P的视频塞进80G的显卡,如果是半分钟720P的视频,我们能塞4个。


我个人认为,视频重建就是视频生成的上限。如果无法压缩重建一个视频,也就无法生成。


我们现在能够对视频进行256倍的压缩,而且信噪比能保持30以上,信噪比越高,表示重建信号越好。


而且重建视频的同时也能够重建图像。我们现在开源的版本是能够压缩256位的视频,当然下一步目标是压缩512位,大家可以用我们的CausalVideoVAE进行视频压缩。


我们也进行了数据收集,有两类方案。


一个是爬取视频数据,因为是文生视频,需要打文本的标签。


但是这个很受限于标注模型的准确度,会受限于现在用的多模态理解模型,所以文本和视频的对齐度不高。


方案二也是用文本驱动物理引擎,比如游戏引擎去合成数据,这样的话文本和视频的对齐度和细粒度会非常高。


而且我们也是刚刚打通了这套数据收集方式,用文本的Prompt驱动游戏画面,让人物做出特定动作。


这种合成数据有个好处,就是对齐度高,收集速度也快很多,因为不需要打标,只需要构造很好的文本Prompt,驱动物理引擎。


大家知道Sora里面有很多case的场景很像物理引擎生成的,我个人认为就是这样的数据的功劳,所以我们现在也把这条路刚刚打通。


关于模型收敛情况,我们在上周发布了第一版预训练模型,坦率讲离Sora差距很大,不过我们仅仅用了一个实验室,用很少的算力预训练。


从我们生成的一些Demo来看,包括面包被烤熟、种子发芽这种质变场景,都比较符合物理规律,这个是Sora模型的核心。


视频生成的长度则是几秒钟到十秒钟。


当然,还可以建模游戏里面的一些场景,比如让它生成“我的世界”中建造房子的过程。


我们也有我们三阶段的复现目标,第一阶段已经完成了,就是1.0的版本,现在已经公开。


大家都可以用,包括压缩工具CausalVideoVAE也可以,不需要我们的商业授权,因为这就是开源的事情。



我们现在在第二阶段,该阶段目标也是开源项目的最终目标,我们希望训练出的模型可以生成20秒以上、720P清晰度的视频。


开源世界对我们支持了很多,比如我们合作伙伴,也是联合发起方兔展智能,为我们提供了百卡H100和H800的算力,进行第二阶段开源项目的研发。


华为昇腾团队也和我们积极合作,为我们提供了算力支持。


同时我们也承诺,第二阶段仍然开源


当然在第三阶段,是超越开源项目的目标,这个是在座各位以及工业界能有更多的算力和更多数据,让它更接近Sora,尤其是在泛化性和时长上。


最后,我个人觉得AI发展到今天,开源世界的贡献功不可没。


大家知道的ImageNet数据集是开源的,很多的深度学习模型也都是开源的,所以才推动了这个领域的繁荣。


所以这个事情的意义是比较大的,学术界和产业界都有一个可以用的类Sora架构的模型。


好,我的演讲到这,谢谢大家。


本文来自微信公众号“量子位”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales