
讲清楚了!一文讲透扩散模型
讲清楚了!一文讲透扩散模型昨天,为大家介绍了生成式对抗网络GAN,今天再来为大家介绍另一个有趣的模型:扩散模型,包括Stability AI、OpenAI、Google Brain在内的多个研究团队基于扩散模型提出了多种创新模型,如以文生图、图像生成视频生成等~
昨天,为大家介绍了生成式对抗网络GAN,今天再来为大家介绍另一个有趣的模型:扩散模型,包括Stability AI、OpenAI、Google Brain在内的多个研究团队基于扩散模型提出了多种创新模型,如以文生图、图像生成视频生成等~
近日,根据彭博社报道,Flux背后公司黑森林工作室(Black Forest Labs)即将在新一轮融资中获得由a16z领投的2亿美元,预计公司估值突破10亿美元大关。2亿美元,是文生图领域迄今为止规模最大的融资。此次融资完成后,黑森林也是文生图领域为数不多的独角兽公司。
近年来,文本到图像扩散模型为图像合成树立了新标准,现在模型可根据文本提示生成高质量、多样化的图像。然而,尽管这些模型从文本生成图像的效果令人印象深刻,但它们往往无法提供精确的控制、可编辑性和一致性 —— 而这些特性对于实际应用至关重要。
虽然美团用AI改造本地业务的工作进行得相当谨慎,但美团对AI应用的探索却覆盖了AI生图、AI聊天到AI儿童产品等多个领域。王慧文的回归是一个关键节点。它意味着,对AI有着更大野心的美团将更加确定做不设限的AI探索。
半小时内,两大巨头前后脚放出两大重磅更新,AI视频真是卷疯了!Runway放出生图模型Frames,一键让你拥有特定风格的世界。Luma则把文字、图像、视频全融合,只用自然交互就让脑海中画面成真。
鹅厂全家桶,被大模型打通的进度+1(手动狗头)。 元宝2.0大更新,不仅新增AI应用专属模块,把搜索、阅读、生图都整合到了一起。 甚至连腾讯文档、电脑管家和搜狗输入法都被他们打通了。
Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型,提升了文本到图像渲染的质量和准确性,不过现有模型在处理复杂语言如中文和未明确指定的文本时,仍存在渲染不准确的问题。
“过去24个月,AI行业发生的最大变化是什么?是大模型基本消除了幻觉。”11月12日,百度创始人李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性;无代码工具“秒哒”让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。
7月29日,AI图像生成平台「LiblibAI哩布哩布AI」宣布,在一年内已完成三轮融资。
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。