如果你想在视频中搜索一个特定的场景,并想精确定位到那个场景,你会怎么做呢?
今天,我们来聊聊Twelve Labs,这家从小试衣间里起步,如今成为一家获得 1.07 亿美元融资的 AI 视频初创公司。他们的产品能够理解视频内容的多模态大语言模型。从精确定位视频中的特定场景,如今为英伟达(NVIDIA)、全球顶级创作者甚至专业体育行业提供解决方案。
它的创始团队如何从军营中萌生创业梦想,又如何在资金匮乏、市场质疑的困境中一路破局?如果你也在寻求关于AI、创业或人生选择的启发,这篇文章值得你读到最后。
如果你试图接纳所有导师给你的建议,那么你的公司很可能会变成像内衣公司一样,完全偏离你想要打造的方向。因此,作为创始人,你需要有一个基本的自我认知和公司的核心基础,并能有勇气对导师说:“谢谢您的建议,但我们不需要。” 有这种拒绝的勇气是成长的重要部分。
大家好,我是Jae,是Twelve Labs 的联合创始人兼 CEO。Twelve Labs 是一家总部位于旧金山的 AI 研究和产品公司。我们正在为开发者和企业构建视频基础模型,帮助他们开发以视频为核心的产品。
简单来说,我们构建了庞大的 AI 模型,能够像人类一样理解视频内容,并通过 API 提供给需要强大的语义搜索、分类或摘要功能的开发者。目前,我们的搜索 API 已经被超过 20,000 名开发者积极使用,同时世界上一些顶级内容创作者、媒体娱乐公司、大型体育组织和执法机构也在采用Twelve Labs的技术。
我出生在首尔,在那里生活了大约 10 年。后来有机会搬到美国,11 岁时移居到田纳西州诺克斯维尔。在那里,我经历了小学和中学,学习了很多美国文化,并对探索新世界和扩展自己的视野产生了浓厚兴趣。
我第一次接触软件工程或编程,是因为我的叔叔在田纳西大学攻读博士学位。我看到他经常绘制分布图,这让我对他在做的事情产生了好奇。这种好奇促使我也开始尝试处理小型数据集,模仿他的工作,希望能与他讨论更多话题。他可能觉得我做的这些事情很有趣,这进一步激发了我对数据捕获和创建系统的兴趣——一个能够理解世界分布的系统。我觉得,如果能够掌握这些知识,就能获得强大的预测能力。
后来,我去了加州大学伯克利分校学习计算机科学,深入研究 AI 和软件工程。在美国生活了大约 15 年,我的生命几乎一半时间都在首尔和美国度过。
我被征召进入韩国网络司令部(Korean Cyber Command),那里汇聚了一群志同道合的人,他们在软件工程和 AI 领域拥有非凡的知识。我开玩笑地说,我是用键盘而不是步枪为国家服务的。在那里,我遇到了我们的首席架构师 SJ 和后来加入的 Aiden。我们三人一开始就发现了对 AI 的共同兴趣,开始投入大量时间阅读论文、讨论和争论,试图推动 AI 开发的前沿。
在军中,我们明确了两条出路:退伍后追求学术生涯成为教授,或创办一家属于自己的公司。回首过去,我们意识到,在军队中我们相处得如此愉快,想象如果退伍后一起创业会有多么有趣。因此,我们坚定了创业的决心。
我们花了大约一年半的时间思考 AI 的下一步前沿在哪里,以及我们如何推动这一边界。我们发现,尽管文本和图像基础模型已经取得了显著进展,但多模态视频理解仍是一个未被充分研究的领域。视频数据正在成为互联网的基础数据,开发者和企业需要超越对象检测或转录的更高级解决方案,这让我们毫不犹豫地决定专注于视频理解。
Twelve Labs的模型旨在将人类语言精确映射到视频内容中发生的一切。这种映射能力带来了诸如精准搜索、分类或摘要的潜在功能。
当时,我们的创始团队仍在军中服役,退伍时间各不相同。SJ 先退伍,他周四退役后,周六就回到军营附近的一家叫 Las Vegas 的面包店,带上笔记本电脑和我们一起研究和原型开发。我们用这种方式坚持了大约一年,直到所有创始成员都退伍。
退伍后,我们借用了朋友的一间办公室开始正式工作,但这家公司在三周内破产了,我们不得不重新寻找办公室。最终,我们在一个仅有试衣间大小的空间内继续工作了六个月,直到成功筹集到第一笔种子轮资金。
尽管一路充满挑战,但我们的无知和激情让我们得以坚持并走到今天。正如人们所说,“无知是福”,在当时我们可能就是因为年轻的无知和单纯的兴奋感,才完成了那些看似不可思议的事情。
当我们首次尝试向市场介绍Twelve Labs时,很多人对“基础模型”和“视频理解”的概念感到陌生。如今,人们对基础层、工具层和应用层的概念已经熟悉,但在我们刚开始创业时,这些都是新事物。我们明白技术上这些概念是行得通的,但不确定市场是否会接受。然而,我们坚信自己正处于 AI 视频理解的突破口。
我们最初的资金非常有限,甚至几乎是“身无分文”。为了吸引市场注意力,我们参加了国际计算机视觉会议(ICCV)的视频理解竞赛。当时,公司为计算资源投入了 20 万美元,这对我们来说是巨大的压力。但这种大胆的赌注帮助我们赢得了比赛,吸引了许多潜在客户和投资人的注意。
通过赢得比赛,我们引起了 Index Ventures 和 Radical Ventures 的兴趣。这些风投机构主动与我们接洽,并最终帮助我们成功完成了种子轮融资。
在早期,我们尝试为一些客户提供产品,但发现有些客户并未真正使用我们的技术。后来我们意识到,与其强行将“不”变成“是”,不如集中精力服务那些真正有热情和创新驱动力的客户。找到适合的早期客户,尤其是行业内的创新者,是推动产品成功的关键。
我们的技术演示通常会展示视频如何被索引,以及如何像人类一样生成文本。真正的创新客户能够迅速看到技术潜力,并提出多种使用场景。而那些需要我们反复解释的客户往往并不适合。
Twelve Labs 与 Oracle Cloud 和 Nvidia 等公司建立了战略合作关系,这些合作不仅限于资金支持,还包括技术研发和产品集成等多方面的协同。通过这种深度合作,我们得以进一步推动视频多模态理解的发展。
目前,我的主要精力集中在招聘上,因为我们深知优秀团队的重要性。正是因为团队的努力,Twelve Labs 才能一路走到今天,并为未来打下坚实基础。
文章来自于“静界Talk”,作者“静界Talk”。