ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
MiniMax公布首个AI高清视频生成模型,闫俊杰:做技术其实是一件很“奢侈”的事
6028点击    2024-09-03 09:55


继Sora、Runway之后,国内又一款AI视频生成模型来了!


钛媒体App获悉,8月31日首次举行的MiniMax Link伙伴日上,MiniMax创始人、CEO闫俊杰发布MiniMax首款 AI 高清视频生成模型技术:abab-video-1。


用户目前可以在海螺 AI 官网免费体验生成包含文字的视频,最高支持原生1280*720的25fps,拥有电影感镜头移动,被称为是AI视频界Ideogram。目前AI视频时长最高6秒,未来或支持10秒。



上述是MiniMax官方的一段模型Demo,讲述一个小男孩拥有魔法硬币的故事,雨林沙漠、天空大海、魔法科幻都表现出来,而且整个视频效果不亚于Sora、Runway等。


当然,钛媒体AGI也做了测试。比如下面这段视频,体现的是一座山上的一块石头破碎,从里面蹦出一个“马斯克”。



再比如下面生成对比Sora演示场景,一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和动画城市标识。她穿着黑色皮夹克、红色长裙和黑色靴子,手拿黑色手提包。她戴着太阳镜,涂着红色口红。她自信而随意地走着。街道潮湿而反光,五颜六色的灯光营造出镜面效果。许多行人走来走去。




虽然背景和颜色有所区别,但相比Sora,MiniMax海螺 AI 视频生成出的另一种效果也非常真实和生动。


闫俊杰在演讲中透露,截至目前,MiniMax每天可以给全球用户提供超30亿次交互,每天处理超3万亿Token(国内日处理量、交互时长最高)——等价于一天内体验完3000段人生、2000万张图片、7万小时的语音。同时,当前MiniMax单日总交互时长与ChatGPT的百分比为53%,差距在不断减小。



会后,针对与大厂之间的竞争,闫俊杰对钛媒体App等表示,这本质上是一件好事,比如电动车、手机、移动互联网都经过了长期激烈的竞争,最终使得中国产品需求特别强,它既可以产生很大的社会价值,而且确实应该有很多竞争,这是一个客观规律。MiniMax需要做好亮点,第一点的话技术如何提升,第二是如何跟用户做更好的共创。


“我们作为一家小的创业公司来说,其实就是说如果比如说我们在竞争中打不赢,我们就应该被淘汰,其实我们也没有其他的选择。”闫俊杰表示,现在公司规模还很小,还需要足够长的时间发展,希望外界能够给予更多耐心。


闫俊杰强调,技术研发其实是一件很“奢侈”的事情,这件事甚至只有创业的时候才会理解。因为技术可能会失败,技术具有不可预测性,而且技术研发投入很大。然而,AGI本身很难走“捷径”,而且一旦技术被突破之后,就能非常显著感受到用户、客户对你的认可。因此,企业的正向发展依然需要持续技术投入和进步。


实际上,在闫俊杰看来,算法一样的情况下,拥有更多的数据训练就意味着更好的模型效果。因此,在两个性能类似的模型中,更快的模型一定是更容易受益到数据的增长,从而能够有一个更好的模型能力。这就是在同样的能力范围下,“快就是好”。


闫俊杰在与钛媒体App等对话中进一步解释称,不管是做MoE还是其他有价值的技术探索,本质上,公司技术研发还是希望让同样的效果模型变得更快。快就是好,意味着同样的算力可以变得更好,这个是其做底层研发的思路。



未来,如何让企业持续发展是公司的重要核心之一。闫俊杰指出,行业需要持续解决AI模型三个挑战:错误率持续降低、无限长输和输出、多模态。


闫俊杰认为,MiniMax产品并非仅技术新品,它的底层设计也不是陪伴用户聊天。实际上,MiniMax希望构建的是一个“内容社区”,里面可以补充一些角色。


“包括现在我们提供了更多样的工具中可以在里面创建故事、创作世界观,来进行互动,它其实类似于小说、账户体验,它的核心其实是一个内容社区,而不是说它的核心是说每个人来聊天,这是不一样的。”闫俊杰对钛媒体App表示。


谈及最新视频生成的技术优势和落地,闫俊杰坦言,相比可灵,MiniMax视频技术推出的确实要晚一、两个月,核心在于团队在解决“如何能够原生算法训练成本比较高的东西“这个技术问题,因为视频Token越长,复杂度越高,而MiniMax希望通过研发新的算法把复杂度降低,压缩率变高,将最终算法效果提升数倍。


“今天只是我们第一个版本,我们应该还会更新,策略是可能会先在每一两周出现新的东西、更加满意状态后,再考虑一些商业化,包括开放平台、广告变现等方式。但目前这个阶段,最重要的可能还不是产业化,而是真正实现对技术能够达到广泛可用的程度。”闫俊杰表示,后续会在数据、算法本身进行更新迭代,比如现在只提供了文生视频,未来或将提供图生视频、文+图生成视频、可编辑、可控性增强等。


关于To B领域,闫俊杰在演讲中透露,截至目前,MiniMax开放平台已经拥有超过3万名开发者,且仍在持续、快速增⻓。


谈及大模型“价格”竞争,闫俊杰指出,当国内大模型“价格战”发生后,大部分公司本认为大模型很贵,之后很多人认为大模型很便宜,可以放心地使用。最终非常惊人地发现,有许多传统企业非常愿意使用大模型,他们觉得反正成本低,出错了之后也不要紧,多调用一次就好了。客观地来说,这极大提高了模型调用量,从而推动模型做的更好,至少目前在非英语语种上,国内大模型水平已与GPT不相上下。因此,乐观角度看,国内大模型的使用量确实在显著地增长,并且中国 AI 大模型在海外确实越来越具有竞争力。


“竞争不可避免,既然不能避免,就要努力做到最好。”闫俊杰称。“在同等计算GPU条件下,尽可能训练更多的轮次、更大数据,做一些科研上的比较有挑战的事,做别人没有做过的事情。经过几次科研的突破,其实能以比较有限的资源,做出一个在国际上第一梯队多模态的表现,这个我们目前还是比较骄傲的。”


闫俊杰强调,“(行业)真正需要的是,一家至少像我们这样的创业公司,真正应该花钱做的研发,是那种能够带来几倍变化的技术。这种东西很多时候如果我们自己不做,外面也没有,用户需求多、技术还非常重要,我认为这才是比较核心的。不管是现在,还是再往后看,我们在什么样的技术方向上最愿意花钱,核心的判断是,我们认为这个方向做出来能不能带来几倍的变化,如果能的话,不管多难都要做出来。如果不满足这个标准,不管多简单我们都不应该做。”


关于国内外 AI 商业化的异同话题,MiniMax国际业务总经理盛静远对钛媒体App表示,不同行业有其底层规律,To B行业需要有规模的商业化。在国内,To B 业务多成项目制,大模型纯技术输出定制的商业模式难以持续实现ROI,因此需要思考把偏工具类AI产品形成有用户粘性并且增强技术能力与产品特色。海外市场则有所不同,MiniMax产品能力处于国际第一梯队,所以只需将其产品不断打磨,通过API、订阅等模式在海外用户付费习惯好的情况下进行推广,海外市场打法相对直接,变现也更快。而MiniMax现在技术已处于领先,更多是公司经历、资源和变现问题。


“ROI是会有转起来的一天,但不是今天的商业形态。”盛静远称,MiniMax还是希望在有限的资源内,做到核心技术不断突破,从而让产品最终实现商业化,来反哺后续技术投入——这才是公司发展成功、实现正向循环的标志。


谈及与大公司(投资方)在市场竞争中的关系,闫俊杰指出,投资者是一个组织,一个组织意味着大部分时候没有一个统一的观点。目前,MiniMax还是一家很小规模的公司,相比大互联网公司非常成熟的业务来说,占比都是非常小的,甚至可以说不值一提。


闫俊杰强调,对于MiniMax来说,核心还是把自身技术能力做到更好。


“MiniMax作为一家有理想主义且脚踏实地的公司,今天的核心产品和技术进展还是远远不够的,我们仍然在努⼒前⾏。但我们很幸运的是,有在座的合作伙伴以及全球各地⽇益增⻓的⽤户们的支持,未来和MiniMax⼀起携⼿努⼒,把⼈类的智能边界再向外推动⼀点,真正实现 Intelligence with Everyone(与每个人共创智能)。”闫俊杰在演讲结尾表示。


文章来源“钛媒体AGI”,作者“林志佳”