ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Kimi 首个多模态功能体验,AI 一键为音乐生成 MV,月之暗面不再只卷长文本
6169点击    2024-11-18 14:44

在闭着眼睛听一首歌的时候,你有没有在脑海里想象过,应该搭配什么画面?


Kimi 内测的最新功能「创作音乐视频」,就是奔着当 MV 导演去的。长文本领先的 Kimi,默不作声地「跨界」了。APPSO 也受邀首批体验了这一新功能。



给 Kimi 一首歌,然后等待几首歌的时间,它就还你一个短视频,能踩点,懂分镜,审美也不错。


当 MV 导演,Kimi 真的有点懂行


懂王入场曲、川普战歌《YMCA》,谁上头了?每当音乐响起,特朗普握紧双拳,上下挥动,没有人比他更懂怎么搓澡。


不妨试试拿 Kimi 做个同款。我上传了一段 11 秒的《YMCA》片段,并用提示词描述了视频的画面和分镜。



其中有个高难度的要求:帽子写上「MAGA」,应援的牌子更是要写一整个句子:「Make America Great Again」。


Kimi 理解了,它为每个镜头扩写了提示词,短短的 11 秒,有 6 个片段,同时符合我的提示词里的镜头切换逻辑。



接下来,打开音量,或者戴上耳机,欣赏一下完整视频。



特朗普的脸偶尔会崩,至于文字,缩写很稳,单词也不容易拼错,但就是没有生成符合要求的句子。


不过,舞王的感觉对了,胸前的红领带很鲜艳,特写尤其传神。


除了迪斯科神曲,《青花瓷》这样的经典中国风歌曲,Kimi 也能 hold 住。



近景切全景,特写切远景,有人物,也有空镜,每个镜头都是按照提示词的要求设计的,烟雨江南的意境到位了。



可惜人物的稳定性不够好,这位女主角从头到尾长得都不一样,手指的动作也比较诡异,一眼看出,这是个 AI。


以及 Kimi 可以解释一下吗,为什么她的手上还戴了戒指?为什么青花瓷瓶自己会滑动?



除了自己上传音乐,我们也可以复制粘贴抖音链接。



以后一键 get 同款抖音热歌,变得不费吹灰之力了。


我选择了周传雄在抖音的一段 800 万点赞的吉他弹唱视频,Kimi 可以提取出音乐,画面的提示词还是我们自己来写。



让 AI 也来弹唱一段吧,虽然音乐里包含了歌词,但实践表明,对口型什么的就别想了。



这次主要都是室内的中近景,人物的一致性保持得不错,帽子和 T 恤都不带变的,但场景就不那么完美了。


毕竟,音乐视频还是一个 Kimi 的内测功能,至少从每个片段扩写的提示词来看,这位 AI 导演挺擅长写分镜,将我粗略的指令,细化成了具体的镜头语言,又不偏离原意。


以后我们听歌时脑海里的大致画面,都可以描述给 AI,让它帮我们「剪辑」。


操作新手友好,但 AI 常见的问题也避免不了


自定义的趣味性比较强,因为我们可以自己上传音乐、抖音链接,或者选择 Kimi 提供的背景音乐,创作更加自由。


同时,Kimi 有很多模板可以体验,音乐是固定好的,并且会附加一些文字和特效,对于新手来说更加友好,只需要描述画面。



《哈利波特》重映,经典归来仍是大热 IP,Kimi 也提供了一个哈利波特风格的模板。


那就试试生成哈利·波特和马尔福·德拉科的针锋相对名场面,主要包括,魔法比试、禁林探险、魁地奇球场。



视频的特效和转场酷炫,不过,两位的颜值不太稳定,马尔福有个瞬间特别像他爸,哈利波特的脸时而青春美少年时而方脸大叔。


而且,视频中也有一些错误,让人犯恐怖谷效应,六个手指就不说了,金色飞贼看着像个发光的甲虫,甚至中途冒出一个诡异的人头。


但不得不说,这个模板下有不少漂亮的画面,Kimi 的审美还是可以的。




「布达佩斯大饭店」的模板,则洋溢着对称美学和梦幻色彩。


韦斯·安德森或许也没想过,因为 AI 和我的异想天开,他的风格可以和古典的中国风融合,画面切换还能与音乐节奏完美同步。



不过,舞者的面部和腿部动作看起来有些怪异,像是伪人。怎么把握人体结构,Kimi 还得练习。


不局限在三次元,让 Kimi 这位剪刀手将动漫人物放进好莱坞歌舞电影之中,也未尝不可。


比如,让《火影忍者》的鸣人和佐助,出演一段《爱乐之城》风格的 MV。


出现的问题就比较多了,上一秒,两人的脸部特写都很不错,下一秒,切换到跳舞,鸣人的舞伴莫名其妙地变成了女生。



不用担心,不必从头再来,Kimi 支持片段的微调,哪个片段不满意,就可以针对性地重新生成,或者说,抽卡。



我对不满意的片段重新生成了几次,得到了以下的结果,明明是同一个人,前后的画风仿佛有次元壁。



可以说,差强人意——没有用错成语,大体上还可让人满意。至少,空镜和特写是好看的。


人人生成一段简单的 MV,难度基本等于零。当然,如果模板的选择更多,那就更方便开脑洞,也不担心撞风格了。


我手写我心,我的 AI 创作我的心情


我们可以为熟悉的音乐创作 MV、基于喜欢的模板创作 MV,但从头开始,完全创作独一无二的作品,也不是不行。


方法是,走 AI 一条龙服务——为 AI 音乐,生成 AI 视频。


我之前用一张工作群回复收到的图片,让 Suno 图生音乐,生成了一段 30 秒的 k-pop 风格《收到之歌》。



用这首歌,让 Kimi 生成一段打工人的写实视频,会如何呢?


30 秒的 MV,Kimi 生成用了 15 分钟左右,平心而论,速度不算太慢,毕竟,我们自己把素材一个个搜罗起来再剪辑,时间可能要按小时甚至按天计算。


首先,它给这支 MV 取的名字就够伤人了——《打工人的不眠夜》,凄凄惨惨戚戚。



视频展现了打工人的群像,场景有些复杂,从早上切换到晚上,最后一段旋律的踩点丝滑。


更重要的是,Kimi 把打工人疲惫的精神面貌表现出来了,咖啡不离身,一天对着电脑,在凌乱的工位吃饭,这不就是世另我吗。


音乐视频,可以说是 Kimi 对外公布的第一个多模态功能。


11 月 16 日,Kimi 正式发布新一代数学推理模型 k0-math,对标 OpenAI o1 系列,月之暗面创始人杨植麟在现场回答了媒体提问。


被问到 Kimi 怎么不做多模态,杨植麟表示,「我们也做,几个多模态的能力在内测」。



在他看来,AI 接下来最重要的是思考和交互这两个能力,多模态肯定是必要的,但思考决定了它的上限。


未来,Kimi 的多模态会怎样迭代,把一致性做得更好,还是很值得期待一下的。


每次创作,Kimi 会先欣赏音乐,想象搭配音乐的故事,再根据故事生成画面,然后根据画面剪辑成视频。从前,这个流程让人类来做,可能要花好几天,甚至需要一个项目组。



AI 让任何人都可以讲述自己的故事,围绕我们的生活经验和兴趣爱好,生成非常个人化的内容,虽然现在问题还挺多,但未来可期。


不是所有歌曲都有精心拍摄的 MV,不是每个人都懂剪辑,但有了 AI 之后,我们喜欢的每首歌,或者自己生成的歌,都可以拥有一个专属视频。


一瞬的闪念,私人的心情,美妙的创意,都有了安放之处,和变成现实的权利。问题可以慢慢解决,但我们要先让可能性存在。


文章来自于微信公众号“APPSO”,作者“发现明日产品的”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0