千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

9153点击 2024-07-08 22:36

“这可能是本届WAIC上欢呼声最多的一场发布”

在刚刚闭幕的世界人工智能大会（WAIC）上，快手晒出了可灵发布一个月以来的成绩单：

“超50万人申请，已开放给超30万用户使用，生成超700万条短视频。”

作为全球首个用户可用的真实影像级视频生成大模型，可灵一经问世便引发了强烈反响，连外国网友都纷纷投来了羡慕的目光……

甚至Stability AI的前CEO Emad Mostaque看了也表示，中国这次已经遥遥领先。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

但快手似乎并不满足于此。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

可灵Web端上线、更高清画质、首尾帧、镜头控制、文生视频开放到10s；可图开源……

随着快手高级副总裁、主站业务与社区科学线负责人盖坤宣布多个重磅消息，现场几度沸腾。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

可灵网页端上线，文生图模型重磅开源

之所以一上线就火到出圈，是因为可灵生成的视频不仅质量高，而且更符合物理规律，大幅度的运动也能准确刻画。

比如这个在公路上高速奔跑的老虎，不仅画面连贯，随镜头角度的变化合理，老虎四肢的动作协调，而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

两周之后的CVPR上，可灵又新上线了图生视频和视频续写两项功能。

其中图生视频功能，拥有很强的逼近世界运行规律的能力，比如网友利用可灵，让《戴珍珠耳环的少女》中的人物动了起来，玩手机、喝咖啡、吃苹果……动作真实又不失优雅。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

而且，该功能还表现出了很强的泛化能力。

比如一幅水墨画，加上简单的提示词，可灵就能让水墨画中的动物惟妙惟肖地运动开来。

但盖坤介绍，水墨画这样的素材在可灵训练的过程中非常少见，甚至连团队自己都没见过。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

更有意义的是，可灵的图生视频不仅能用来娱乐，还有网友用它“复活”了长辈的老照片，留下了一段感人的故事……

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

而视频续写功能，则可以把前面生成的视频不断延长，每次5秒，最长可以扩展到三分钟。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

这次的WAIC上，快手高级副总裁、主站业务与社区科学线负责人盖坤又宣布，可灵再次迎来一系列重磅更新。这也是可灵从发布起一个月内的第三次大动作。

首先是基础模型的升级，可灵生成的视频，画质得到了进一步提升。

以这个名场面为例，可灵的作品在升级前后的对比是酱婶儿的，可以看出所有的细节处理都比原来更加精细。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

另外，新版本可以一次性直接生成10秒的视频，不需要先生成5秒再延长了。

功能方面，这次可灵还新增了首尾帧控制（图生视频）和镜头控制（暂只支持文生视频）。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

△素材图片由快手图片生成大模型“可图”生成

镜头控制功能则让创作者可以直接指定运镜方式，不会写镜头提示词也不需要再“开盲盒”了。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

对于可灵背后的技术方案，快手视觉生成与互动中心负责人万鹏飞从模型设计、数据保障、计算效率、能力拓展等方面进行了深入剖析。

万鹏飞介绍，可灵最新发布的版本中，在运动生成、物理规律、视频画质、指令响应等七个方向的能力亮点实现了进一步升级。

未来，预计视频生成模型将对游戏、动画、泛视频行业带来新机遇，并有望作为世界模拟器，为具身智能提供互动仿真环境。

除了模型的升级和功能上的更新，快手还重磅发布了可灵Web版本（传送门见文末），可以在PC上更加方便地创作并管理作品了。

包括Web界面在内，这些新功能也是坚持了快手一以贯之的“不画饼”原则，发布即上线，目前限时免费体验。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

另外，此次上线的Web界面同时整合了图片生成功能，它的背后是快手自研的文生图大模型——可图。

而且可图在这里与可灵深度联动，生成图片后可以一键转到图生视频，图生视频当中也可以直接选择可图绘制的图片。

说回可图本身，它和其他图像生成模型相比，拥有更高质量和语义跟随能力，支持的场景也更加丰富。

在内部进行的盲测当中，可图取得了第一名的耀眼成绩，超越了MidJourney、Stable Diffusion等一系列知名模型。

在北京智源研究院的第三方测试中，可图也以75.23分的成绩获得了第二名，仅次于76.66分的DALL·E-3。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

另外，可图还拥有很强的“写字”能力，支持在图像中用真实的效果嵌入文本。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

而且更懂中文，甚至能理解一些古诗词，比如韩愈的《春雪》中，一句“白雪却嫌春色晚，故穿庭树作飞花”就被可图还原得淋漓尽致。

仔细观察图中的细节，你会发现远处虚化的树木已经变成了绿色，还有树上已经绽放的花朵，都符合了诗句当中的季节设定。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

可图的上线时间稍早于可灵，于今年的5月31日向公众开放，而就在这次的WAIC大会上，盖坤又隆重宣布，可图大模型正式开源。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

目前可图的推理代码和Checkpoints已经在GitHub中公布，未来相关的LoRA、ControlNet和ComfyUI工作流也将陆续上线。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

这部分的最后，我们再来展示个小彩蛋——

将于本月上线的快手首部AIGC短剧《山海奇镜之劈波斩浪》，就有可灵的深度技术支持。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

在快手的大模型家族当中，可灵和可图因为可以直接用于创作，所以我们的感触更加直接。

但其实，快手还拥有更为庞大的“大模型矩阵”。

快手大模型家族全员亮相

除了可灵和可图这样的视觉生成大模型，快手的大模型矩阵还包括语言大模型、推荐大模型等等。

比如为了让你刷到的内容更符合你的偏好的、“默默无闻”的推荐大模型。

盖坤介绍，快手的推荐大模型基于SIM（Search Interest Model）模型打造，拥有10万亿参数量。

而且，对每一个用户，快手推荐大模型处理的行为序列长度，都可以达到百万。

现在，快手大模型团队正在积极研发基于Transformer的下一代推荐大模型技术。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

还有语言模型“快意”，在内部盲测中，中文能力已经达到了GPT-4水平。

快手副总裁、大模型团队负责人张迪介绍，快意大模型从最早开始，已经研发了四个版本。

从早期的13B版本开始，到现在已经有了主力应用的175B版本和多模态版本，经过了多个版本的研发快意大模型已经在快手内部应用在包括素材创作、AI互动和内容生产等多个场景中。

在快手大模型家族中，快意是最基础的能力，未来除了持续提升快意大模型的基础能力之外，团队还将结合快手的应用场景，做出差异化的功能。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

快手家族的这些大模型覆盖了生成、推荐和理解等多个层面，并已经深度服务于快手的各大业务场景。

另外，基于系列大模型能力，快手还搭建了数字人全流程AIGC服务。

这其中包括了数字人脚本创意生成、数字人渲染生成、数字人实时互动、智能客服问答等整个流程。

而在C端，快手也在APP评论区中上线了基于大模型的智能体“AI小快”，它是快手官方的智能互动小助手，定位是快手用户有用、有趣且有温度的聊天搭子。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

你可以问他视频中各种各样的内容，基于多模态大模型的理解能力可以做出准确的回答，而且AI小快也非常有趣，你可以在评论区画图、画表情包，还能在评论区各种求安慰、求祝福，实现情绪价值。

目前，AI小快有超过1000万的粉丝量，同时有超过1.5亿次的累计互动，而且这还是在AI小快不会主动对你进行评论，只能被动召唤的条件下达到的。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

总之，借助大模型矩阵中的各种模型，快手用AI把从B端到C端，从服务到产品的整个生态都武装到了牙齿。

那么，在这背后，快手又有怎样的战略布局呢？

坚持自研，拥抱开源开放

在快手的战略框架当中，坚持全栈自研、坚持技术创新是至关重要的一环。

快手团队在大模型的基础研究和前沿探索方面持续投入，从底层芯片算力、网络架构到顶层应用，都能看到快手自研技术的身影。

张迪表示，快手认为坚定投入自主研发长期来说会带来“技术雪球”效应以及巨大的成本优势。

在上层，快手一个非常大的优势是快手本身有非常多的AI应用场景，这会给大模型带来非常多的落地机会，我非常有信心的说快手可能是国内在大模型应用上探索最深入的公司。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

放眼于具体，快手的大模型技术体系涵盖了文本（快意）、图像（可图）、视频（可灵）等多种数据模态，并且强调多模态大模型之间的关联互通，实现更加智能灵活的感知和生成能力。

在自研精神的驱动和不断的研发投入这下，快手已在视频生成、对话互动、数字人等方向取得了行业领先的突破。

当然，有了完备的技术体系，还要与实际应用场景深度融合，才能实现落地，快速产生商业价值。

这也是快手战略体系中的另一个重要环节。

当然，得益于庞大的内容平台和创作生态，快手的一个优势，正是更容易找准大模型技术的最佳应用落点。

具体说，快手重点聚焦在内容推荐、创作助手、互动社区、电商直播、数字营销等几大场景，力求将大模型技术嵌入业务的各个关键环节。

比如在电商直播场景，快手希望通过虚拟主播、智能导购助手等大模型应用，为商家提供了更加智能高效的直播带货解决方案；

又如在数字营销当中，快手将大模型技术与广告平台深度融合，强化多模态广告素材的智能创意生成，提升广告投放的性价比，为广告主创造出了更大价值。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

独乐乐不如众乐乐，所以在不断强化自身之余，快手还积极致力于推动生态发展。

可图的开源就是一个很好的例证。

另外，快手不仅与多家高校或科研机构合作进行技术研发，还设立专项了基金支持，学术界的研究创新。

比如与中国计算机学会（CCF）与快手携手，共同宣布成立“CCF-快手大模型探索者基金”。

该基金针对“大语言模型”、“视觉理解与生成”等五大核心领域，于本年度推出共计12个研究项目，每项课题最高可获30万元人民币的支持。

纵观整个WAIC大会，大模型、算力、数据、AI治理等都是今年的热点议题。而谈及大模型，开源与否又是一个不可避免被谈及的问题。

但快手并没有参与这场口水仗，而是用行动给出了选择，用可图的成绩单证明了开源模型的实力。

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

这样的做法，亦是快手大模型一贯务实作风的体现，不搞花拳绣腿、不开空头支票，始终坚持产品发布即可用，坚定地为用户做最好的AI技术。

可灵Web版传送门：

https://klingai.kuaishou.com

可图GitHub页：

https://github.com/Kwai-Kolors/Kolors

可图模型权重：

https://huggingface.co/Kwai-Kolors/Kolors

文章来源于：微信公众号量子位

千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

关键词: WAIC , 可灵 , AI视频 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales