
AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频
AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
抢人、抢算力、重启“APP工厂”。
剪映能否帮字节跳动拿下AI时代的船票,还需时间来检验。
根据 The Information 报道,字节跳动计划 2025 年斥资 70 亿美元投入英伟达最新的 Blackwell 芯片,该计划由张一鸣主导。
《智能涌现》从多个独立信源获悉,剪映产品负责人张逍然目前已经离职。
在人工智能快速发展的当下,这个问题有了新的答案——处理284张720P的图片。2023年12月,随着字节跳动发布最新的豆包视觉理解模型,AI领域又迎来一次"降维打击":每千tokens的输入价格降至3厘,较行业常见价格低了整整85%。
剪映成字节探索AI的利器
在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。
字节前几天的发布会,上线了一堆新的模型:视觉理解、3D 生成,以及全线降价
过去一年,AI对话产品时长、频次、变现能力提升还不够理想。