ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
速递 | 将视频初创出售给苹果的创始人,进军AI视频配音,获得近千万美金投资
1977点击    2024-11-09 15:30

图片来源:


在翻译领域,生成性人工智能有一个巨大的机会,一家名为Panjaya的初创公司正在将这一概念提升到一个新的水平:一个超现实的基于生成性人工智能的视频配音工具,可以重现一个人用新语言说话的原始声音,同时视频和说话者的身体动作会自动调整,以自然地与新的语音模式相匹配。


据TechCrunch报道,在隐身三年后,这家初创公司推出了 BodyTalk,这是其产品的第一个版本,并获得了 950 万美元的首次外部融资。


Panjaya 是 Hilik Shani 和 Ariel Shalom 的创意结晶,这两位深度学习专家在以色列政府默默工作了大部分职业生涯,现分别担任该初创公司的总经理和首席技术官。他们在 2021 年放下了政府工作的帽子,带着创业的渴望,1.5 年前 Guy Piekarz 加入担任首席执行官。


Piekarz 并不是 Panjaya 的创始人,但他是一个值得拥有的知名人士:早在 2013 年,他将自己创办的一家初创公司出售给了苹果。该初创公司名为 Matcha,是一个在视频流发现和推荐方面的早期热门参与者,它是在苹果电视和流媒体战略的早期阶段被收购的,那时这些还只是传闻,而非实际产品。Matcha 是自筹资金的,以低价出售:$1000 万到$1500 万——考虑到苹果最终在流媒体方面的重大投资,这个价格算是相对 modest。


Piekarz 在苹果工作了近十年,负责 Apple TV 及其体育业务。随后,他通过 Viola Ventures(其投资者之一)认识了 Panjaya,其他投资者包括 R-Squared Ventures、JFrog 联合创始人兼首席执行官 Shlomi Ben Haim、Chris Rice、Guy Schory、Storm Ventures 的 Ryan Floyd、Riviera Partners 的 Ali Behnam 和 Oded Vardi。


“那时我已经离开了苹果,计划做一些完全不同的事情,”Piekarz 说。“然而,看到这项技术的演示让我大吃一惊,接下来的事情就成了历史。”


BodyTalk 有趣之处在于它同时将几种技术结合在一起,这些技术在合成媒体的不同方面发挥作用。


它始于基于音频的翻译,目前可以提供 29 种语言的翻译。然后,翻译以模仿原始说话者的声音进行播放,这反过来又与原始视频的一个版本相结合,在这个版本中,说话者的嘴唇和其他动作被修改以适应新的单词和短语。所有这些都是在用户将视频上传到平台后自动创建的,该平台还配备了包括进一步编辑工具的仪表板。未来的计划包括一个 API,以及更接近实时处理。(目前,BodyTalk 是“接近实时”的,处理视频需要几分钟,Piekarz 说。)


“我们在需要的地方使用最优秀的产品,”Piekarz 谈到公司使用第三方大型语言模型和其他工具时说。“而在市场上没有真正解决方案的地方,我们正在构建自己的人工智能模型。”


一个例子是公司的口型同步,他继续说道。“我们整个口型同步引擎是由我们的人工智能研究团队自主研发的,因为我们还没有找到能够达到我们想要支持的多个发言者、角度和所有业务用例的水平和质量的东西。”


目前它的重点仅在于 B2B;客户包括 JFrog 和 TED 媒体组织。该公司计划在媒体领域进一步扩展,特别是在体育、教育、营销、医疗保健和医学等领域。


生成的翻译视频非常奇怪,与深度伪造的效果相似,尽管皮卡兹对这个术语感到不快,因为多年来它已经获得了与初创公司目标市场完全相反的负面含义。


“‘深伪’不是我们感兴趣的东西,”他说。“我们希望避免整个名称。”相反,他说,可以将 Panjaya 视为“深真实类别”的一部分。


通过仅针对 B2B 市场,并控制谁可以访问其工具,该公司正在围绕技术创建“护栏”以防止滥用,他补充道。他还认为,从长远来看,将会开发更多工具,包括水印,以帮助检测任何视频是否被修改以创建合成媒体,无论是合法的还是恶意的。“我们绝对希望成为其中的一部分,而不是允许错误信息的传播,”他说。


不那么细致的条款


有许多初创公司在基于人工智能的视频翻译领域与 Panjaya 竞争,包括 Vimeo 和 ElevenLabs 等大牌,以及 Speechify 和 Synthesis 等小型公司。对他们来说,构建改善配音效果的方法感觉有点像逆流而泳。这是因为字幕已经成为当今视频消费的一个非常标准的部分。


在电视上,这有很多原因,比如扬声器差、我们忙碌生活中的背景噪音、含糊不清的演员、有限的制作预算以及更多的音效。CBS 在一项针对美国电视观众的调查中发现,超过一半的观众在“某些(21%)或全部(34%)时间”内开启了字幕。


但有些爱情标题只是因为它们读起来很有趣,而围绕这一点已经形成了一个完整的文化。


在社交媒体和其他应用程序中,字幕已被简单地融入体验中。以 TikTok 为例,从 2023 年 11 月开始,所有视频默认开启字幕。


尽管如此,国际上仍然存在一个巨大的配音内容市场,即使英语常被视为互联网的通用语,但来自像CSA这样的研究小组的证据表明,以母语提供的内容能够获得更好的参与度,尤其是在 B2B 环境中。Panjaya 的观点是,更自然的母语内容可能会表现得更好。


一些客户似乎支持这一理论。TED 表示,使用 Panjaya 工具进行配音的演讲观看次数增加了 115%,而这些翻译视频的完成率翻倍。


本文翻译自:TechCrunch, https://techcrunch.com/2024/11/08/led-by-a-founder-who-sold-a-video-startup-to-apple-panjaya-uses-deepfake-techniques-to-bite-into-video-dubbing/


编译:ChatGPT


文章来自于微信公众号“Z Potentials”,作者“The Information”


关键词: AI , AI翻译 , Piekarz , 人工智能