可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」【新智元导读】利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在T2I模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述。
【新智元导读】利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在T2I模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述。
高通又往中高端手机市场扔下一颗「重磅炸弹」。
一个月前(2月15日),Sora和 Gemini 1.5 同时推出,这个故事很多人都听过了,Google 被冠以 AI 界汪峰的名头。人们纷纷震惊于 Sora 的强大,讨论 Sora 是不是世界模型。而 Gemini 1.5 的第一个模型 Gemini 1.5 Pro 在发布后没多久就逐渐无人问津了。
在 AI 落地如何 ToB 业务上,有赞是属于「跑得快」的一批玩家。在 2024 年 1 月 FounderPark 的一场直播中,有赞创始人兼 CEO 白鸦就从 SaaS 产品经理的角度,聊了聊大模型时代的产品应该怎么做。而在最近的一场直播中,白鸦则详细分享了有赞如何用 AI 改造他们的 SaaS 服务流程。
早在 2020 年,陶大程团队就发布了《Knowledge Distillation: A Survey》,详细介绍了知识蒸馏在深度学习中的应用,主要用于模型压缩和加速。随着大语言模型的出现,知识蒸馏的作用范围不断扩大,逐渐扩展到了用于提升小模型的性能以及模型的自我提升。
苹果在 AI 领域的布局到底是什么,或许苹果 CEO 蒂姆・库克的一句话可以为我们答疑解惑。此前在 2024 苹果股东大会上,库克表示,今年将在 GenAI 领域实现重大进展。
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。
AI世界的进化快的有点跟不上了。刚刚,全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程。更厉害的是,WSE-3打造的单个超算可训出24万亿参数模型,相当于GPT-4/Gemini的十倍大。
近日,谷歌DeepMind宣布推出一个可扩展指令多世界智能体(Scalable Instructable Multiworld Agent,SIMA)。
约一年前,OpenAI发布了强大的基础模型GPT-4,这催生了一批基于GPT-4打造应用的创业公司,其中就有法律AI领域的领头羊Harvey。