音视频、人工智能技术是推动数字经济高质量发展的技术基石,产学研多领域不断提升创新能力,加快优化迭代视频智能技术,对推动全行业的数字化、视频化、智能化转型具有重大意义。
3 月 1 日,未来高新视频智能技术创新中心成果汇报会暨创新联合体揭牌仪式在北京快手科技举办。
来自北京市科委、中关村管委会、市经信局、海淀区政府的相关领导及高校和科研院所的专家学者与会,共同见证高新视频智能技术的最新成果,并就加强创新联合体机制建设、完善企业主导的产学研深度融合创新和未来行业发展趋势等展开深入研讨。
据了解,2022 年快手入选北京市首批企业技术创新中心,获得市科委专项支持牵头建设 「未来高新视频智能技术创新中心」。作为北京市支持产业创新重大需求的新型创新机构,该技术创新中心将通过与清华大学、中国人民大学、国家广播电视总局广播电视规划院、中国信息通信研究院云计算与大数据研究所等组建创新联合体,重点聚焦颠覆性创新成果,引领产业技术变革方向,影响产业未来发展态势的技术领域,体系化推进技术攻关,推动跨领域技术交叉融合创新,持续带动产业优化升级。
出席会议的北京市科委、中关村管委会副主任龚维幂表示,快手是短视频领域知名龙头企业,在推动短视频和直播行业的数字化、智能化升级方面,发挥了重要作用。希望快手依托该技术创新中心,不断完善创新和产业链条,不断做大做强,加强原始创新和关键核心技术攻坚,进一步发挥平台科技企业的优势,积极探索产学研协同新模式。
经过不断探索实践,未来高新视频智能技术创新中心顺利通过第一年度验收。技术创新中心主任、快手高级副总裁、研发线负责人于冰介绍,在过去一年,快手进一步夯实短视频基础,持续投入音视频、芯片、内容智能生产、智能推荐等核心技术,提效降本,并不断赋能产业,推动各行各业视频化、数字化转型。
编解码作为音视频领域最核心的技术,快手持续突破,自研 KVC 编解码标准,相比开源 X265 方案,在画质持平甚至更优的情况下,可以实现 50% 以上的码率下降,进而大幅节省了网络带宽资源。
快手也自研了编解码芯片 SL200,是目前行业中压缩率最高的编解码芯片,相比行业最优竞品,该芯片在相同视频质量下码率降低接近 20%,在直播和短视频场景下带来成本和体验的双重收益。
在网络传输领域,快手设计了一套全新的传输协议 CMTP,大幅降低用户播放卡顿,并且正在与中国通信标准化协会(CCSA)合作进行行业标准的制定和推广。
当前,技术创新中心孵化的软硬结合的编码方案和新一代网络传输协议,不仅在快手业务中创造了巨大收益,也对外面向行业客户的短视频和直播业务进行落地,创造了价值的转化。
业务场景的升级也驱动快手不断进行技术创新。视频从二维视角向三维体验进化,催生用户对全景视频的体验需求,快手 6DoF 自由视角技术在亚运会击剑比赛和快手村 BA 中亮相,取得了很好的反馈,快手也让黑科技贴近了用户的生活。于冰透露,该技术有可能将应用于巴黎奥运会,持续为体育赛事注入硬科技力量。
同样,在数字人领域,快手打造官方主播 「关小芳」,主播粉丝超过 180 万,帮助蒙牛打造虚拟员工 「奶思」,也通过孪生数字人技术商用促进电商等企业做业务创新,带动数字经济的发展。活动现场,于冰邀请 「关小芳」和背后的主播同框与现场观众互动,通过一曲国风舞蹈让现场观众感受数字人的真实感以及背后的技术魅力。
此外,快手还自研万亿参数的精排模型,在算法推荐领域发表 100 + 篇国际顶级学术会议论文,其中不乏获得 CIKM'22 最佳论文奖、SIGIR'23 最佳论文候选奖的优秀成果。
于冰指出,学术界与工业界应当密切合作双向奔赴,学术界培养高水平有创新力的人才,提出前瞻性的技术方法,而工业界拥有大量的业务场景、数据资源和算力资源,两者优势深度结合,可以把技术价值发挥到最大,技术既沉淀出顶尖科技成果,又产生巨大的产业经济价值,实现 1+1>2 的效应。快手目前与清华、人大、中科大北京研究院成立有联合研究院和实验室,与全球 20 多所顶级高校科研机构展开科研合作,每年投入数千万科研经费,不仅为学术界带来丰富的工业界落地成果,也为快手创造了不错的业务收益。
未来高新视频智能技术创新中心副主任、快手技术副总裁、多媒体与大模型部负责人张迪介绍了快手大模型的布局和进展。一直以来,内容理解技术、内容生成技术和推荐技术是快手核心 AI 技术。面对大模型的冲击,去年三月底,快手正式启动了新的 AI 战略,重点打造语言大模型、视觉生成大模型和推荐大模型。
目前,快手语言大模型已发布了 130 亿参数版本、660 亿参数版本和 1750 亿参数版本,1750 亿参数版本内测效果非常接近 GPT-4 水平;在视觉生成方向,快手大模型图像生成能力内测效果对比 MidJourneyV5 有多方面优势。
张迪认为,鉴于 AI 大模型强大的内容理解与生成能力,原有的核心业务都值得进行一次重构,引入更多的创新能力。
伴随着模型能力提升,快手也结合自有业务形态进行了很多模型应用的创新尝试。快手推出的 AI 机器人 「AI 小快」,在业内最早落地评论区智能互动场景;内容生产侧,快手依托可图大模型打造多款特效内容,实现图像特效模型的通用;此外,快手还在站内搜索场景下推出了 AI 对话功能。张迪认为,如果视频生成可以做到像图像生成这样的通用能力,将大幅增加视频内容供给,改变特效生产模式,甚至颠覆整个创作者生态。
技术的突破与进步是快手实现高速发展的关键动力,会上,中国人民大学高瓴人工智能学院执行院长、信息学院院长文继荣分享了基于 Transformer 的扩散式视频生成模型 VDT。VDT 模型不仅可以无缝地处理无条件视频生成和视频预测任务,还能够通过简单地调整输入特征,扩展到更广泛的视频生成领域,如视频帧插值等。文继荣教授表示,在快速发展的视频生成领域内,希望高校学术发展能和企业进行深入合作,真正在主赛道上走得更远。
在技术发展过程中,数据是重要的资产沉淀。中国信息通信研究院云计算与大数据研究所所长何宝宏分享道,数据正在走向资产化,通过业务贯通、二次价值数智决策、数据流通赋值三个阶段,实现数据价值的深度释放。随着数据资产的价值不断被挖掘,快手技术发展中的数据沉淀也将向更多场景、更多行业赋能,最大化数据的应用价值。
当前,AI 赋能是技术突破的重要课题,在 AI 赋能互联网音视频服务方面,清华大学计算机科学与技术系教授孙立峰表示,快手等互联网音视频服务平台上,系统、内容、用户三要素具有规模大、强动态性等特点。用 AI 对这三要素进行更加智能的理解、做相应的预测,才能够实现高效、精准的决策智能,这是 AI 赋能互联网音视频服务的一个基本思路。
随着高新视频不断发展成熟,相关行业发展标准也更加完善。国家广播电视总局广播电视规划院制播所副所长王惠明介绍道,广电总局持续通过发布 5G 高新视频系列技术白皮书、举办高新视频创新应用大赛等形式,推进高新视频产业发展,并为超高清电视、互动视频、VR 视频、沉浸式视频、云游戏、三维声音频等各形态高新视频制定了相关标准体系。
在会议的圆桌环节,文继荣、孙立峰、王惠明、张迪进一步围绕「视频生成的机遇与挑战」展开讨论。对于视频生成技术对内容产业发展带来的变化,张迪表示,随着模型性能的提升,AI 技术在视频创作中的辅助性作用也将产生质变,带来整个创作者创作方式的变化。王惠明也表示,AI 生成视频技术能够高效助力视频创作者,提升行业的内容量。
在视频生成技术促进内容生产的同时,AI 生成视频的内容治理问题也成为业内讨论的重点。文继荣提出,视频比文本具有更强的传播力和影响力,随着视频生成技术不断发展,视频生成治理问题也迫在眉睫。王惠明表示,未来对视频生成技术的监管需要更全方位,在视频生产、发布与传播、版权管理等多方面和多环节,须配备相关政策措施。
伴随着创新联合体正式成立,未来高新视频智能技术创新中心将以市场需求为导向,继续搭建高水平科创平台,重点聚焦颠覆性创新成果、引领产业技术变革方向、影响产业未来发展态势的技术领域;同时加强上下游企业协同,进一步完善产学研深度融合创新机制,推动跨领域技术交叉融合创新,持续带动产业优化升级。
文章来自于微信公众号 “机器之心”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales