ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
我们最近跟刚融了8000万美元的Pika聊了聊,它有点儿想成为 AI 版的 TikTok
5928点击    2024-06-13 20:38

6月5日,AI 视频生成工具 Pika 宣布了它新近完成的 8000万美元 B 轮融资。领投方是风险投资机构 Spark Capital,参与本轮投资的还有 Greycroft 、光速创投(Lightspeed Venture Partners)、Neo、Makers Fund,以及著名演员 Jared Leto,大西洋唱片公司 CEO Craig Kallman 等。这轮融资让 Pika 的估值超过4.7亿美元,俨然半只独角兽。


这家 AI 视频生成领域的明星公司成立于2023年4月,创始人包括斯坦福大学 AI Lab 的博士研究生郭文景(Demi Guo)、孟辰霖(Chenlin Meng)和陈思禹(Karli Chen)。她们最早在开发者聚合社区 Discord 上发布了 Pika 的产品 demo,一时受到了广泛的欢迎。2023年11月,Pika 宣布了它的首轮5500万美元融资,投资人阵容堪称硅谷式的明星组合:OpenAI的创始成员Andrej Karpathy,Perplexity 创始人 Aravind Srinivas,HuggingFace 创始人Clem Delangue 都是 Pika 的投资人。


Pika 的融资现象是特殊的:它是中国大陆赴硅谷求学创业的年轻一代创业者中,罕见的获得硅谷明星阵容风险投资机构和人工智能领域顶级科学家和企业家集体“盖戳认证”的明星创业公司。在 OpenAI 携 Sora 强悍卷入 AI 视频生成战场之后,它成了笼罩在所有 AI 视频生成创业公司头顶的阴影。如何应对 OpenAI 的进入,找到自己的定位和优势,从而能够活下去,是包括 Pika 在内的所有玩家的“要命题”。


看上去,Pika 用一轮成功的融资阶段性地化解了这个问题。


从硅谷和中国的风险投资界,硅星人获知了关于 Pika 融资和发展的两个关键信息,:


其一,在创办伊始,Pika 曾经接触过一些来自中国的头部美元风险投资机构寻求融资,但并没有得到特别的重视;后来,社交问答平台 Quora 和聊天机器人聚合平台 Poe 的创始人 Adam D' Angelo 等硅谷的明星创业者成了 Pika 团队的创业导师,给了这个年轻的华人团队接触硅谷 AI 全明星创投阵容的门票。


其二,积极转型人工智能的老牌图像和动画软件巨头 Adobe 近期公布了视频生成的合作伙伴:OpenAI(Sora)、Runway 和 Pika。而在今年更早的一段时间,Adobe 曾经发起过对 Pika 的收购要约,但 Pika 没有接受。


接下来,如何保持快速的产品迭代,实现模型层面的技术积累和突破,建立起自己的 AI 视频创作者生态,是它需要专注的事。


这也是硅星人和 Pika 团队在新一轮融资宣布之前不久交流的话题——关于 Pika 的进化。


1

Pika 是产品,也是模型


在硅谷的“宇宙中心”——帕罗奥图(Palo Alto)市中心一个安静的街区里,一座不起眼的“L”型单层建筑隐藏在一片绿色之中。没有任何logo,这里是 Pika 的的办公室所在。阳光从小院子透到 Pika 装饰简洁的工区里,员工在各自喜欢的位置忙碌着。


这家公司最初被视为“一个人也能建立百亿美金估值公司”的典型代表。郭文景和孟辰霖等人创办这家公司后,一直没有大规模招聘扩张,一度员工只有8人,而一年后它的员工也维持在30人左右。


当然,工程师占了团队的多数。


值得一提的是,Pika 的工程师不是一个独立的统一团队,而是被分散到基础研究和产品开发两端,分为研究工程师和开发工程师,分别负责视频生成模型,以及面向“创作者”的视频生成工具的开发


很多人不曾注意到:Pika 有自己的视频生成模型,而不是一个“套壳”的工具和框架集成者。它早期可能使用 Stable Difussion 的开源模型做了一些开发,但现在它有自己的模型。


“我们的模型是自己研发的。我们有自己的工程和模型团队,也有研究员团队,会借鉴各种最近的研究,最终形成我们自己的模型。它是我们的核心能力”。Pika 的创始科学家 Omer Bar Tal 对硅星人说。


“如果有一个强大的基础模型,你的视频生成的基本能力和功能就足够强大。而模型不停迭代,你就能在产品上有更多可能。”


Pika 保持了相对稳定的节奏感:2023年11月,Pika 发布首款 AI 视频生成产品 Pika 1.0,支持文字生成视频、图像生成视频以及视频生成视频。公开信息显示,Pika目前用户数达数百万,每周生成数百万个视频。



不过,在Sora诞生后,人们一度认为在大语言模型上的故事会在视频模型上重演,也就是Sora一枝独秀,OpenAI把整个格局又变成“一超多强”。


在Sora出现之后,Pika是紧张过的。不过,经过一段时间的观察后,他们认为,Sora 更多是模型是大力出奇迹的工程产物。而在产品计划上,Sora似乎并没有短期推出真正面向所有人的产品的计划。


“在展示五个最好效果的 demo 和真正提供给用户大规模使用之间,其实存在很大的不同。”Pika团队认为。


“而且在这些demo背后,很多人是全职在用它制作而且如果你有上万张 GPU,你可以想生成多少demo 就制作多少。当你不能使用这么多资源的时候,能真正生成的视频内容是不同的。”


而对于Pika来说,优先级和目标一直没有变化。郭文景和孟辰霖最初决定创业的一个契机,就是他们当时参加的一场AI生成视频的竞赛,过程中他们发现当时的产品都不能真正让普通用户都可以生成他们想要的创意视频。她们决定自己做一个。


Pika 的目标从那时起,一直是给用户提供核心可用的更好的功能,而不是展示 demo。


因此对于Pika来说,更重要的研发思路是如何让强大的模型与产品结合。


他们认为,模型已经是产品很重要的一部分,但许多功能需要真正的用户来挖掘。所以在维持人才密度的同时,Pika内部也频繁跨团队合作,以一种更紧密而灵活的设置,来保证交流的简单直接。


一般来说,工程师和研发人员把模型能力升级后,会直接和产品团队等共同讨论,找到从用户角度出发的功能点,然后把这些功能具体化。


这些思路贯穿 Pika 这一年的产品迭代。


2023年12月 Pika 1.0上线,之后 Pika 研发团队发布学术成果 DreamPropeller,提高了文本转3D的生成速度,而这4.7倍的提高,也体现在它的产品上。目前Pika的视频生成所需时间是同类型产品中最快的。这一切也都是为了用户的体验和可用性。


2024年2月,Pika推出Lip Sync(唇语同步)功能,这也是多个同类竞品没有的功能。而对于普通用户来说,可以对嘴型一直是个“刚需”,同时也是C端产品进行病毒传播的一大方法。这样的产品设计背后,同样需要通过大量此类数据对模型进行微调才能拥有对应能力。


此后,Pika还继续推出Sound Effects,可以给视频带来音效,这些功能都在不停更新,通过免费模式和付费模式的区分,提供给不同需求的用户。


产品侧看到的用户真实需求,会返回到模型训练的思考上。比如,对于 Pika 和它的同类产品来说,更长更有趣的视频是目前最大的挑战。而要实现它,需要让模型生成过程中能保证很强的一致性。


Pika在从多个技术维度解决这个问题,其中包括视频表征(Video representation)的方法,让模型能理解不同的场景背后其实是同一个元素。


另外,在提示词上,Pika 不仅在模型层面提高对提示词的理解,也在产品上做优化,用户可以在不同的风格中做选择,这本身是一种对提示词的可视化呈现,你可以更直观看到你想要加的不同风格的视觉元素。


在 Pika 的Discord社群,以及X等社交网络上,可以看到大量用户展示的案例,而它也拿下了多个大企业客户,一些广告中也已经在使用基于Pika生成的视频。


据硅星人了解,Pika也在接触和拓展更多种类的视频创作类客户,包括短剧。而全球受欢迎的短剧,多数批量生产自中国。


1

Pika 不是 AI 版的 Adobe,而是 AI 版的 TikTok


Pika 的大会议室里很忙,除了接待外来的合作方,年轻的CEO郭文景也经常在这里跟同事做产品和技术的讨论。有时你会经常遇到她自己从会议室出来,叫上同事又快速回到会议室讨论。干练而节奏飞快。


经常与她讨论的就包括不少艺术家。与一些纯技术类的模型公司不同,Pika 的团队里还有创意部门。


Pika 的创意团队他们负责产品能力进行挖掘,因为他们本身也代表着 Pika 最主要的目标用户——作为创作者的个体用户们。


“每个人都能做自己的导演。”这是Pika的slogan。


而这与Sora,Runway等产品的定位有明显不同。这些更加资金雄厚的产品目前的许多作品展示和应用场景,都倾向于好莱坞级别的合作。OpenAI 也多次被传出在与好莱坞签订订单,试图进入这庞大的工业体系。


Pika 当然也卷进了好莱坞,投资人里也有好莱坞的头面人物,但它更想抓住个体。


“你们自己看待Pika,认为自己更多是TikTok,还是Photoshop?”这是硅星人提出的一个问题。


Pika 的创始科学家 Omer Bar Tal 认为:在创作的意义上,TikTok给个体带来的创作解放的确在Pika身上很明显,可能与 TikTok不同的地方是,他们给用户提供的创作质量要更高。


“所以更像是一个给创作者的 TikTok。”


“我们希望Pika能让用户变得更有创意。”Omer对我们说。


事实上 TikTok 改变了人们与视频这种媒介的交互方式,但今天有了生成式AI后,这种交互方式还可以更彻底的完成进一步改变。


据硅星人了解,郭文景在Pika内部经常提到的一个长远目标,就是依靠技术进步彻底重塑视频制作与消费的交互模式,然后靠积累的数据等来反过来继续推动技术迭代。


而且,一个创作者的 TikTok 会给 Pika 带来更多想象空间,而且对于解决今天生成式AI领域的商业模式问题也会带来新的思路。在项目制的部署,深度化定制合作,以及订阅付费等单向的商业模式外,平台化本身会打开更多可能。


这样的长远定位会要求 Pika 这个阶段的产品要更加的符合个人用户的喜好。在这一年的成长中,这家公司在模型技术之外,正在增加更多的产品和创作者的气质。


他们每周都会有和创作者团队的讨论会,而一些有意思的新功能就此诞生。比如最近的 Pika 多了一个可以让emoji动起来的功能(不过好像苹果也做了),这就是由创意团队在使用中发现,然后与技术团队协同沟通固定成了产品功能。它上线后也很受用户喜爱。


而在产品团队方面,在X上,最近也陆续有产品经理官宣自己加入Pika。


据硅星人了解,Pika新的用户页面会上线,它会更加简洁,对普通用户更加友好。与此同时,Pika 2.0 的版本也会有模型层面的大更新。


“从产品到视频模型,接下来会是一个全新的Pika。”Omer对硅星人说。


文章来源于:微信公众号硅星人Pro,作者:王兆洋,骆轶航


关键词: Pika , AI , AI版tik tok , AI视频
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0