Open AI今天给一些人悄咪咪开放了两个新功能,现在他可以上传PDF等文档进行分析和提问了,GPT-4加持下想必能有更好的结果。另一个是现在代码解释器,图片交谈和图片生成还有联网能力不需要你自己选择了,你发出要求后他可以自行选择需要的能力完成任务。
我们都以为两个主要的是文档交谈能力的时候,一些开放了模型自动选择的人发现了一一些不得了的东西。
这个Chat GPT自动选择模型的功能是非常强大的。不只是自动调用模型那么简单,这个新模式可以将信息在多个功能之间传递从而完成类似代理的工作。
可能这才是GPT-4多模态模式的完全体,从一些测试上来看他已经有了非常大的潜力,下面是一些例子可以参考一下。
根据这个能力最容易想到的就是我们常说的的垫图功能,上传一张图片让视觉模型理解之后DALL-E3再生成,之前由于两个模型不互通我们需要自己写提示词复制内容。
现在可以一步完成比如下面的这个卡皮巴拉就被重绘成了动漫风格。
更离谱的是再后续的图片修改过程中我们还能上传图片让它参考只更改图片的某一个部分,比如下面这个例子让卡皮巴拉拿着那张图片中的滑板,可以看到GPT完成的很好。
离谱的东西来了,现在GPT可以把再互联网检索的的信息绘制在用DALL-E3生成的图片里面,比如下面这个查找到对应地区的天气以后根据信息生成天气应用的UI界面。数据和下雪天气对应的内容都是正确的。
还有这个查找23年所有飓风的数据,然后用DALL-E3生成可视化的图表。
图像生成也可以和代码解释器联动,比如让DALL-E生成图片后再利用代码解释的代码能力提取图片的色彩信息为图片制作色板参考。
这个信息就比较复杂了,让GPT检索昨天足球比赛的结果,然后绘制两个队比赛结束的状态,可以看到它明确的把球衣样式画对了。然后要求它让队员穿上指定样式的羽绒服,它也搞得很好。
这个功能现在还处于开白的时间段,应该只有少数人有,可以看一下你们的Chat GPT有没有。
感觉随着11月6号的开发者大会临近Open AI还有更多王炸会放出。
文章来自微信公众号 “ 歸藏的AI工具箱”,作者 op7418
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0