「看到人们喜欢 ChatGPT 中的图片功能真是太有趣了,但是我们的 GPU 正在融化。」
上线不到 72 小时,OpenAI 的 GPT-4o 原生图像功能终于扛不住了。
今天凌晨,OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次,他没有具体说明次数限制是多少,但表示希望这项保障措施不需要实施很长时间,因为 OpenAI 正在尝试优化效率。
随着用户在互联网上发布大量 ChatGPT 生成的图像,传播开来之后再吸引到更多的用户,OpenAI 升级后的图像工具火爆程度远远超出了预期。其实 GPT-4o 生成图像的速度越来越慢,很多用户已经在抱怨了,周四时生成一张图片的速度就长达半个小时。
要知道,现在 GPT-4o 生图还是仅限于付费版用户的功能(Plus、Pro 和 Team 用户)。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会,但是照目前的情况来看距离兑现反而还越来越远了。
看起来这一回,AI 的图片生成能力终于超过了某个阈值,切实地在重塑着世界。
人们从 GPT-4o 生成的图像中会发现一些令人毛骨悚然的细节,可以看出 AI 是能够理解你生成图片背后想要表达的含义。这说明 GPT-4o 的绘图能力源自 LLM 本身,并不是像以前那样简单地调用专门的生图模型(Dall-E)。经过了最新的思维链流程,AI 充分结合了自身的知识,能够实现更好的反馈。
用 GPT-4o 生成的图片。
原生多模态的大模型是如此的强大,对此很多业内人士已经开始认为,当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。
毕竟如果把 GPT-4o 比作一个知识渊博,又有理性的设计师,那么 Stable Diffusion 还仅局限于美工的程度。
OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。它还会充分调用模型内已有的知识库和对话上下文,并对人们上传的参考图片预先进行转化处理。
由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。
当然,这一切都是建立在更加复杂的推理和计算基础上的。目前的 GPT-4o 在效率、逻辑上也存在一些问题。比如奥特曼的推文下有人就在质疑:我试图生成辛普森一家风格的图片,ChatGPT 算完了才回复我「受到版权限制无法生成」,为什么不在生成图片之前就限制呢?
说到生成图像的风格,其实又引出了另一个问题:整个互联网上大家一直在生成的吉卜力风格的却不受版权限制,这是否也是一种双标?
自从奥特曼换了头像带起节奏,很多人在用 GPT-4o 生成吉卜力工作室画风的图像,有的人做出了表情包开始卖,也有人顺着这股风潮开始推出滤镜 App,结果有网友开始恶搞,假称吉卜力终于忍无可忍了,发来了律师函:
或许在 OpenAI 改进好大模型之前,这股 GPT-4o 改图的风潮就会因为其他层面的问题而受到影响。
不过 OpenAI 并没有停止前进。今天凌晨,他们又宣布了 ChatGPT 的另一波更新:
更新后的 GPT-4o 功能已面向所有付费用户开放。OpenAI 表示,免费用户将在未来几周内获得相同功能。
AI 引发的革命,还在继续。
参考内容:
https://x.com/sama/status/1905296867145154688
文章来自于“机器之心”,作者“泽南”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0