一年前,ChatGPT 的爆火很快在大语言模型领域催生了“百模大战”。一年后,Sora 横空出世再次惊艳世人,这一次是否会掀起新一轮的 AI 视频领域的百模大战?
近期,DiT(Diffusion Transformer)论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法,其中核心资源的排序是——人才第一、数据第二、算力第三,其他都没有什么是不可替代的。
国内有哪些团队、哪些人才正在从事 AI 视频行业?
为此,「甲子光年」基于公开资料与现有信息,整理了国内 12 家创业公司与 4 家大厂的 AI 视频团队信息。
这些信息不仅给产品爱好者较为全面的 AI 生成视频模型总结,也给更多的关注人工智能技术走向的 AI 从业者们一份技术与人才指南。
(以下公司按公司名首字母排序,欢迎补充。)
HeyGen
HeyGen 成立于 2020 年 11 月,核心创始成员有两位,是上海同济大学的校友。
HeyGen 联合创始人、CEO 徐卓(Joshua Xu),是卡内基梅隆大学计算机硕士。徐卓是早期 Snapchat 员工(2014 年 - 2020 年),关键工程负责人。在 Snapchat 的 6 年里,徐卓领导了多个关键工程领域,例如广告平台、推荐系统、机器学习平台(Barista)和 AI 相机。
HeyGen 联合创始人、CPO(首席产品官)梁望(Wayne Liang),是卡内基梅隆大学人机交互硕士。梁望是前字节跳动美国设计主管,领导企业软件和内部产品创新的设计;
Smule 前设计总监,领导国际设计团队设计数百万日活产品,领导了视频和直播等关键举措,使 UGC 内容增长了 10 倍以上。
HeyGen 联合创始人、CEO 徐卓(左)与 HeyGen 联合创始人、CPO 梁望(右)
HeyGen 总部位于洛杉矶,成立三个月后便从红杉中国和真格基金获得了 200 万至 300 万美元的种子轮融资。2023年 11 月 29 日,HeyGen 宣布获得由 Conviction Partners 领投的 560 万美元新一轮投资,估值达到 7500 万美元。此时,HeyGen 只有 25 名员工。
HeyGen 在 2022 年 9 月推出 AI 视频创作工具,仅用 7 个月的时间实现了 100 万美元的 ARR(年度经常性收入),然后又于 10 月份达到 1000 万美元。如今,这一数字已经跃升至 1800 万美元。
官网:https://www.heygen.com/
HiDream.ai(智象未来)
HiDream.ai 成立于 2023 年 3 月,是一家专注于构建视觉多模态(文本、图片、视频、3D等)基础模型及应用的生成式 AI 公司。
HiDream.ai 创始人兼 CEO 梅涛,是人工智能、计算机视觉和多媒体领域的全球知名学者,加拿大工程院外籍院士,IEEE/IAPR/CAAI Fellow,曾担任京东集团副总裁和微软研究院资深研究员。他发表的论文被引用超过三万余次,先后荣获 15 项最佳论文奖,拥有 70 多项专利,并主导研发了多款全球数百万日活用户的商业产品。
HiDream.ai创始人兼CEO梅涛
HiDream.ai 团队中,博士、硕士占 90% 以上,核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球 500 强公司的核心技术团队。
2023 年 4 月,HiDream.ai 核心技术成员组队,完成由阿尔法公社、中喝大种子一号基金参与的种子轮融资;12月,HiDream.ai 完成由科大讯飞领投的天使轮融资。
HiDream.ai 的产品 Pixeling(皮克象)V1.0 已经于 2023 年 8 月上线。
官网:https://hidream.ai/#/
Möbius
Möbius 是一款上线于 2024 年 1 月 4 日的 AI 视频模型,团队只有三个人:AI 算法工程师 LogicQ,软件工程师 Peki(刘佩),财务 Zhao。
1 月 14 日,Peki 在 Reddit 上发布了 2 个帖子,冲上了 Reddit 热搜。当时,Peki 发布了一个特斯拉汽车视频,比较了Möbius 和 Runway 的效果,结果被一个小哥骂的狗血淋头,因为 Möbius 效果太好,以至于让他认为视频是恶意剪辑故意诋毁 Runway 的。
Peki 告诉「甲子光年」,Möbius 目前的模型缺陷主要有2个——畸变,当角色大幅度运动时容易产生畸变扭曲;角色一致性,需要所有时长中角色保持一致,也就是语义连贯。这些问题的核心是基础模型,当基础模型要达到一定的智能,真正对物理理解,问题就会解决。Peki 表示正在努力。
尽管如此,Peki 自信地表示,如果与全球范围内进行产品对比,Möbius 和 Sora 差距是一定是最小的。
Möbius 上线之后,零广告推入情况下,至今已为用户生成了数百万的视频,并获取了可观的收入。
官网:https://mobius.any-vision.com/
Morph studio
Morph Studio 成立于 2022 年,专注于 text-to-video 生成技术与社区平台,通过 SD+自研模型技术帮助用户实现短视频快速生成,其视频生成模型已经于去年8月上线 Discord。
2023 年 5 月,Morph Studio 宣布已完成数百万美元种子轮融资,由百度风投单独投资。
Morph Studio 创始人徐怀哲为香港科技大学人工智能方向博士创业,师从倪明选教授和沈向洋教授,曾在微软小冰参加AI音乐生成研发。Morph Studio 的两位联合创始人赵世豪、殷子欣都是香港科技大学人工智能博士。
Morph Studio 创始人徐怀哲
除了技术团队外,Morph Studio 也加强了其产品团队的实力,猫眼电影签约制作人、上海国际电影节评委,前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。
官网:https://www.morphstudio.com/
Neverends
NeverEnds 在 2023 年 12 月上线。
「甲子光年」独家获悉,Neverends 的联合创始人,为 Llama 中文社区联合发起人曲东奇。曲东奇毕业于东南大学,德国亥姆霍兹研究中心访问学者。曲东奇也是《Llama大模型实践指南》一书的作者之一。
官网:https://neverends.life/
爱诗科技AIsphere
爱诗科技成立于 2023 年 4 月,已经完成了数千万元人民币天使轮融资。
爱诗科技创始人、CEO 王长虎深耕计算机视觉、人工智能领域 20 年,曾任字节跳动视觉技术负责人,参与了抖音和TikTok等产品从 0 到 1 的建设和发展,搭建了字节跳动视觉算法平台和业务中台,主导了字节跳动视觉大模型从0到1的建设。王长虎曾任微软亚洲研究院主管研究员,发表国际论文百余篇,拥有专利数百项。
爱诗科技创始人、CEO 王长虎
爱诗科技团队成员来自清华、北大、中科院等顶级学府,曾任职于字节、微软亚洲研究院、快手、腾讯等头部机构的核心技术团队,拥有世界一流的计算机视觉算法攻坚能力和解决系统工程问题的经验。
爱诗科技的视频生成工具 Pixverse,支持 4K 高清视频生成,在运动准确性、一致性和丰富性等方面取得了进展。爱诗科技将在 2024 年 3 月发布新版本的多模态视频生成大模型。
官网:https://aisphere.tech/
李白人工智能实验室(LibAI Lab )
李白人工实验室是杭州王道控股有限公司旗下的专注计算机视觉和生成式人工智能算法、产品研发的技术团队,成立于 2018 年,由唐勇博士领导成立。
唐勇毕业于美国宾夕法尼亚州立大学,在美国知名 500 强企业担任技术学科专家,高级工程师等。其他成员均毕业于国内外知名高校,清华、北大、浙大、英国皇家理工和美国常青藤范围等。
李白人工智能实验室在图像生成方面已经有不少积累,推出的产品有神采PromeAI、图可丽 tukeli.net、cutout.pro 等国内外在线工具网站及多个App、小程序。其中 cutout.pro 项目海外月活超千万用户,海外站更是跻身图像编辑工具分类排名前十;神采 PromeAI 项目荣获 AI 产品榜出海 20 强。
去年 10 月 31 日-11 月 2 日,由李白人工智能实验室团队携手阿里云等团队制作的李白数字展亮相云栖大会。
近期,李白人工智能实验室神采 PromeAI 也上线了图生视频功能。
官网:https://www.ishencai.com/
毛线球科技(6PenArt)
6Pen 成立于 2022 年 4 月,产品正式上线于 7 月,从 AI 绘画工具起步,逐步打造 AIGC 社区。
6Pen 同时提供两个模型:一个是基于 Disco Diffusion 的模型「西瓜」,优点是图片效果好,但速度非常慢,成本会非常高;另一个是小模型「南瓜」,可以用更快的速度去生成图片。据介绍,用户普遍做法是先采用「南瓜」绘图,如果画作满意,继续使用参考图的方式传输到「西瓜」模型,也就是 Disco Diffusion上,再进行一次重新生成。
自上线以来,6Pen 通过 10 余项产品功能创新,获得纯自发增长,4 个月积累了百万优质注册用户,付费率超过 5%,上线首月即开始盈利。6Pen 文字生成视频模式也正在内测中。
2023 年 6 月,6Pen 获得奇绩创坛的 A 轮融资。
6Pen 是一个非常年轻的团队。6Pen CEO 王登科出生于 1994 年,为 10 年内容创作者、连续创业者,曾独立开发过被 App Store 推荐的 App,打造过创作者经济社区「面包多」。前段时间爆红网络的“哄哄模拟器”,就是由他开发。
6Pen CTO 邵万博出生于 1995 年,曾在字节负责 IoT 云平台项目,实现字节教育硬件云服务、AILab 机器人云服务的从无到有,包括整体架构设计与核心功能开发。
方轲为 Al 负责人,4年快手 AI 工作经验,核心算法研发,曾获得快手内部技术突破奖。
官网:https://6pen.art/
生数科技
生数科技成立于 2023 年 3 月,由瑞莱智慧 RealAI、蚂蚁集团和 BV 百度风投联合孵化,聚焦于多模态生成式大模型与应用产品开发。前瑞莱智慧副总裁唐家渝出任 CEO。
生数科技由清华人工智能研究院副院长朱军教授带领,核心成员来自清华大学人工智能研究院,该团队长期致力于贝叶斯机器学习的基础理论和高效算法研究,是目前在扩散概率模型领域发表论文成果最多的国内团队,并培养出了多名生成式 AI 领域重要的研究者。
生数科技于 2023 年初开源了基于 Transformer 的多模态扩散大模型 UniDiffuser,实现基于一个底层模型完成文生图、图文联合生成、图文改写等多种生成任务。生数科技也正从 0 到 1 打造着产业级的多模态深度生成式大模型,覆盖文本、图像、3D 模型、音视频等多个模态。目前该大模型正在快速迭代中。
2023 年 6 月,生数科技完成了近亿元的天使轮融资。此轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,估值达 1 亿美元;8 月,生数科技完成了数千万元天使+轮融资,由锦秋基金独家投资。
在商业模式上,生数科技面向图像创作、3D 资产创建等细分场景打造垂类应用,服务范围覆盖C、B 两端。
官网:http://shengshu-ai.com
徐图智能
徐图智能成立于 2023 年 6 月,由 IEEE Fellow、香港大学教授徐东成立。
徐东担任徐图智能 CEO,他于 2001 年和 2005 年在中国科学技术大学取得学士和博士学位,目前担任香港大学计算机系教授。他曾在微软亚洲研究院、香港中文大学和哥伦比亚大学从事研究工作,并在南洋理工大学和悉尼大学任教。
徐东教授在计算机视觉、多媒体信号处理以及机器学习等领域做出了重要贡献,在 IEEE Transactions 和国际顶级会议上发表了 150 余篇论文,其中两篇论文分别获得 T-MM 2014 最佳论文奖和 CVPR 2010 最佳学生论文奖。徐东教授是 IEEE 和 IAPR Fellow,于 2018 和 2021 年两次入选科睿唯安(Clarivate Analytics)高被引学者,同时也担任 ACM Computing Surveys(CSUR)资深副主编。
艺映 AI
艺映 AI 是由 MewXAI 团队开发的AI视频生成工具,可以由文本、图像生成AI视频。可以将文本描述转换为视频动画,也可以上传图片将其变为动态视频,适用于多种场景,如抖音短视频、小说推文、AI 短片、AI 电影等制作。
除了 AI 视频生成工具「艺映AI」之外,MewXAI 还包含了 AI 绘画、AI 二维码、AI 艺术字等多种 AIGC 创作工具。
MewXAI 由美团资深前端工程师华益峰创立,华益峰是一位出生于 1995 年的年轻独立开发者。除了 MewXAI 之外,华益峰还创立了木及简历、goenhance.ai(面向海外市场的视频生成工具)等产品。
官网:https://www.artink.art/
右脑科技(RightBrain AI)
右脑科技成立于 2022 年 9 月,是一家专注研发 AI 图像和视频生成的初创公司, 致力于将 AIGC 技术应用于图像及视频领域,赋能创作,让想象成为具象。
右脑科技有三位核心创始成员,均毕业于北京大学。
梁建是北京大学计算机科学硕士,曾在微软亚洲研究院任职,长期从事视觉生成研究,代表作女娲系列 NUWA、NUWA Infinity。
史杰是北京大学智能系统硕士,曾在微软亚洲研究院,女娲项目组从事 Diffusion 模型研究;曾任商汤研究员,负责扩散视频生成模型研究。
周呈华是北京大学软件工程硕士,曾在微软亚洲搜索技术中心(Search Technology Center Asia,STCA)、智源研究院从事视觉生成研究,参与智源悟道·文生图模型、国画模型研发。
右脑科技已经完成了陆奇博士创立的奇绩创坛的种子轮,以及光速中国等一线 VC 数千万天使轮融资。
产品层面,右脑科技先后推出了 AI 绘画创作平台 Vega AI,以及 AI 视频创作平台 Video Studio。
官网:https://rightbrainai.cn/
阿里:周靖人、薄列峰领衔
在视频生成领域,阿里巴巴通义实验室开发了开源视频生成模型和代码系列 VGen,具备非常先进和完善的视频生成系列能力,包含了如下内容:
2023 年 11 月,阿里发布了关于 I2VGen-XL 的论文,署名作者有 9 位:Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qing, Xiang Wang, Deli Zhao,以及阿里云 CTO 周靖人。
12 月,阿里巴巴智能计算研究院发布了最新AI应用:Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。通义千问风靡一时的“一键跳科目三”功能就是来自于此。
Animate Anyone 的论文有 6 位作者:胡立、高鑫、张鹏、Ke Sun、张邦与薄列峰。
其中,第一作者胡立,浙江大学硕士毕业后加入阿里达摩院,在 COCO、DAVIS 等大型知名 Benchmark 竞赛上取得多项第一,在 CVPR/ICCV/ECCV 等顶会上发表多篇论文。
该项目的核心负责人薄列峰,是阿里巴巴集团 XR 实验室负责人。
阿里巴巴集团 XR 实验室负责人薄列峰
薄列峰博士毕业于西安电子科技大学,先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究,在国际顶会和期刊论文 80 余篇,论文被引用超 1.1 万次。其中,他的博士学位论文曾获得全国百篇优秀博士论文奖,RGB-D 物体识别论文荣获机器人权威会议 ICRA 最佳计算机视觉论文奖。
薄列峰曾就职于亚马逊西雅图总部,任首席科学家,从事 Amazon Go 无人零售店的基础算法研究和工程落地。2017年,薄列峰加入京东,后加入京东数字科技集团AI实验室首席科学家,研究范围覆盖机器学习,深度学习,计算机视觉,自然语言处理,语音等多个领域。
2022 年,薄列峰加入阿里巴巴达摩院,现在为通义实验室 XR 实验室负责人。
百度:肖欣延领衔
2024 年 1 月 19 日,百度推出了一款视频生成模型 UniVG,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。
该模型论文有 5 位作者:Ludan RUAN、Lei TIAN、Chuanwei HUANG、Xu ZHANG、肖欣延。
其中,肖欣延为百度文心一格总架构师。肖欣延长期从事自然语言处理相关研究和应用,已发表CCF A/B 类论文 30 余篇获授权发明专利 50 余项并获中国专利优秀奖1项,相关成果已在百度的搜索、推荐、百家号、小度、输入法、百度云等业务中得到广泛应用。
百度文心一格总架构师肖欣延
腾讯:单瀛领衔
腾讯近期推过两个视频生成模型项目,第一个是在 2023 年 12 月,北京大学、腾讯 AI Lab 与香港科技大学三家联合发布一款视频生成模型 AnimateZero。
AnimateZero 是一种基于视频扩散模型的零样本图像动画生成器。研究人员提出了一种分步生成视频的方法,将外观和运动过程解耦,提高生成效率和可控性。通过零样本修改,还能将 T2V 模型转换为 I2V 模型,使其成为零样本图像动画生成器。在应用方面,AnimateZero 介绍了通过文本控制动作、视频编辑、帧插值、循环视频生成和真实图像动画等多种应用场景。
在该项目中,腾讯 AI Lab 有 4 位作者参与,分别为寸晓东、Yong Zhang、Xintao Wang 与单瀛。
单瀛,腾讯杰出科学家、ARC Lab & AI Lab CVC总监。单瀛博士曾担任微软雷德蒙研究院博士后研究员,SRI International 资深研究员和微软科研主管,在国际顶级会议和刊物上发表 120 多篇论文,并拥有多项美国/国际专利。2018 年底单瀛加入腾讯公司内容和平台事业群(PCG),创立了ARC Lab 并担任中心主任,同时兼任腾讯 AI Lab 视觉计算中心主任、QB 搜索技术负责人,致力于多模态内容生成、理解、学习中的算法研究和应用推广。
寸晓东,腾讯 AI Lab 视觉计算中心研究员,本科毕业于西安电子科技大学计算机系,硕士与博士毕业于澳门大学计算机与信息科学系,导师是潘治文教授。加入腾讯之前,寸晓东先后在阿里巴巴、海康威视研究院、华为诺亚方舟实验室工作。目前,寸晓东正在使用与 AIGC 相关的技术,研究设计新颖的图像/视频生成、翻译和编辑应用(特别是在动漫游戏领域)。
Yong Zhang,腾讯 AI Lab 高级研究员,研究方向是AIGC。在加入腾讯之前,Yong Zhang 于 2018 年在中国科学技术院自动化研究所(CASIA)获得了博士学位,导师是胡包钢教授和董未名教授,他们都是国家模式识别实验室(NLPR)的成员。在加入 CASIA 之前,Yong Zhang 于 2012 年在湖南大学获得了自动化专业的工学学士学位。从 2015 年 9 月到 2017 年 9 月,Yong Zhang 在伦斯勒理工学院(RPI)的智能系统实验室(ISL)担任联合博士生,导师是 Qiang Ji 教授。
Xintao Wang,目前是腾讯 ARC Lab 和腾讯 AI Lab 的高级研究员,领导视觉内容生成(AIGC)方面的工作。此前,Xintao Wang 获得了香港中文大学多媒体实验室(MMLab)博士学位, 导师为 Chen Change Loy 教授和汤晓鸥教授。早些时候,Xintao Wang 获得了浙江大学的学士学位 。
腾讯近期推出的第二个视频生成项目,是在 2024 年 1 月推出的 VideoCrafter2。VideoCrafter2 是一个视频处理工具,致力于提高视频的视觉质量、动态效果以及概念组合。通过独特的算法和先进的技术,VideoCrafter2 能够生成精美影片。
VideoCrafter2 参与成员有7位:Haoxin Chen、Yong Zhang、寸晓东、Menghan Xia, Xintao Wang、Chao Weng、单瀛,大部分成员也参与了上述 AnimateZero 项目。
Haoxin Chen,目前是腾讯的研究员,主要研究文本到视频的生成。在此之前,Haoxin Chen 毕业于华南理工大学,获得学士和硕士学位。
Menghan Xia, 腾讯AI Lab 视觉计算中心的一名研究员,目前专注于基础生成模型(AIGC)、多模态学习和面部运动合成。Menghan Xia 于 2021 年在香港中文大学(CUHK)获得了计算机科学与工程博士学位,导师是黄田津教授;于 2014 年获得了武汉大学摄影测量与遥感专业的工学学士学位,以及 2017 年获得了模式识别与智能系统专业的工学硕士学位,两位导师都是姚剑教授。在攻读博士学位期间,Menghan Xia 自 2019 年 3 月起与 Adobe Research进行了为期一年的合作,并在 2021 年夏天在微软亚洲研究院(MSRA)进行了研究实习。
字节跳动:冯佳时、李航领衔
字节跳动有多个 AI 视频研究团队,其中一个在新加坡。
2023 年 12 月,新加坡国立大学的 Show Lab 联合字节跳动发布了一款视频模型 MagicAnimate(https://showlab.github.io/magicanimate/)——一种基于扩散模型的人体图像动画框架,旨在增强时间一致性、忠实地保留参考图像并提高动画保真度。
字节跳动有 5 名研究人员参与。其中,冯佳时曾为新加坡国立大学电子与计算机工程系的助理教授,研究兴趣包括计算机视觉和机器学习。冯佳时教授目前已经加入 TikTok 担任研究科学家,正在组建一个新的基础研究团队。
字节跳动研究科学家冯佳时
其他成员包括:
Jianfeng Zhang,字节跳动研究科学家,致力于3D生成模型和数字人生成/动画方面的工作。Jianfeng Zhang本科毕业于武汉大学,博士毕业于新加坡国立大学。Jianfeng Zhang 曾在 Meta Reality 实验室、TikTok 和 Sea AI 实验室实习。
Jun Hao Liew,毕业于新加坡国立大学,曾在Adobe 计算机视觉研究院实习,现在为字节跳计算机视觉科学家。
严汉书,字节跳动新加坡的一名研究科学家,团队专注于开发高效且可控的视频/图像生成模型,并将它们应用于创意编辑任务。严汉书在新加坡国立大学博士毕业,研究兴趣在于机器学习和计算机视觉,目标是探索能够解决工程和科学领域中具有挑战性问题的原则性机器学习算法。
Chenxu Zhang,字节跳动 Intelligent Creation Lab 的一名研究科学家,本科毕业于北京航空航天大学软件工程专业,硕士毕业于计算机,博士毕业于德克萨斯大学达拉斯分校计算机。Chenxu Zhang 的研究兴趣包括计算机图形学、计算机视觉和人工智能,重点关注会说话的面部生成、会话手势合成、带有人类运动的去模糊NeRF、文本/图像到3D,以及有情感会说话的数字人。
2024 年 1 月,字节跳动新加坡团队再次发布新的模型,名为 MagicVideo-V2(https://magicvideov2.github.io/),将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。受益于这些架构设计,MagicVideo-V2 可以生成具有出色保真度和平滑度的美观、高分辨率视频。通过大规模用户评估,它表现出了优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。
该论文共有 12 位作者,其中就包括上一篇论文的作者Jun Hao Liew、严汉书与冯佳时。MagicVideo-V2 的第一作者为王伟民。
王伟民本科毕业于新加坡南洋理工大学,硕士毕业于新加坡国立大学,毕业后先后在新加坡房地产交易所、医药公司MSD、印度尼西亚的互联网科技公司 GO-JEK 做数据相关工作,在亚马逊做机器学习研究科学家,并于 2020 年加入字节跳动,是字节跳动视频生成模型的负责人。
字节跳动视频生成模型负责人王伟民
2022 年 4 月,王伟民参加了新加坡国家研究基金会下属人工智能研究计划「AI Singapore」发起的“可信任媒体挑战” ,在为期五个月的挑战中击败了来自世界各地的469个团队获得了第一名,以开发用于检测深度伪造或数字修改视频剪辑的最佳 AI 模型。
其他团队成员还包括:
Zhijie Lin,毕业于浙江大学,现在为字节跳动研究员;
陈硕, TikTok 新加坡的一名研究科学家,本科就读于南京邮电大学物联网学院;硕士就读于清华大学电子工程系,导师是廖庆敏教授和周飞博士;博士就读于阿姆斯特丹大学,导师是Cees Snoek教授和Pascal Mettes博士。陈硕曾作为访问学生在深圳先进技术研究院多媒体研究中心学习,导师是乔宇教授。
Chetwin Low,曾在新加坡国立大学做学生导师与本科研究助理,目前在TikTok做计算机视觉研究实习生。
Tuyen Hoang,毕业于新加坡南洋理工大学,现在为字节跳动算法工程师。
Jie Wu,字节跳动 Intelligent Creation Lab 的一名计算机视觉工程师,本科与硕士毕业于汕头大学,曾在百度计算机视觉视觉技术部(VIS)实习,师从人机物智能融合实验室的李冠彬教授和林倞教授。
Daquan Zhou,新加坡国立大学毕业生。
2024 年 2 月,春节假期之前,字节跳动研究院又推出了一款新的 AI 视频生成产品Boximator(https://boximator.github.io/#Demo),可以通过文本控制生成视频中人物或物体的动作。Boximator 是基于 MagicVideo-V2 模型发布的一款视频模型产品 Demo,将会在未来2~3个月内正式推出。
Boximator 论文共有 7 位作者,分别为Jiawei Wang*、Yuchen Zhang*、Jiaxin Zou、Yan Zeng、Guoqiang Wei、Liping Yuan 与 Hang Li。最后一位作者为李航,字节跳动研究院负责人。
字节跳动研究院负责人李航
李航是北京大学、南京大学客座教授, IEEE Fellow、ACM 杰出科学家、CCF 高级会员,本科就读于日本京都大学电气工程系,1998年在日本东京大学获得计算机科学博士学位。
1990 年至 2001 年,李航曾在日本 NEC 公司中央研究所担任研究员,期间从事了 NEC 文本数据挖掘产品的开发。2001 年至 2012 年,李航就职于微软亚洲研究院,任研究员、主任研究员、高级研究员。2012 年至 2017 年,李航在华为诺亚方舟实验室任首席科学家、实验室主任,2017年离职加入字节跳动。
2019年,李航作为唯一华人当选 ACL Fellow,当选理由为“他对信息检索,特别是排序学习做出了基础性贡献,在深度学习和对话生成方面做出了突出贡献,并且促进了中国自然语言处理(NLP)的发展和商业化。”
除了上述三个项目,字节跳动还在北美筹建团队。据「甲子光年」独家获悉,英伟达高级科学家、VideoPoet项目负责人蒋路,已经加入 TikTok 北美团队。
文章来自于微信公众号 “硅星人Pro”,作者 “赵健”
【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。
项目地址:https://github.com/gcui-art/suno-api
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales