谷歌把最新的文生图模型 Imagen 4,以及它的 Pro Max 版 Imagen 4 Ultra,放到了 AI Studio 和 API 里。
你可以在 Google AI Studio 里限量免费尝鲜,超出额度需付费使用。
实际测试。免费额度。挺多的,跑了40多张还能用。
Imagen 4 一次调用能生成最多四张 1024 × 1024 的图片,prompt 最长支持 480 个 token。
价格方面,普通版 Imagen 4 大概 4 美分一张图,高保真版的 Imagen 4 Ultra 大概 6 美分一张。
这俩版本都带 SynthID 水印,生成速度接近实时。Ultra 版据说对 prompt 的理解更到位,还能通过 Vertex AI 导出 2K 分辨率的图片。
开发者用的是和 Gemini 模型一样的 /generate 接口,预览期间可以申请更高的速率限制,默认是每分钟每个项目 20 次请求。
这是他们的旗舰文生图模型,能搞定大部分图片生成任务。跟 Imagen 3 比,质量提升明显,特别是生成文字的能力。
如果你需要图片严格按照你的指令来,那就得用 Ultra 版。它生成的图片跟你的 prompt 贴合度更高,跟其他主流文生图模型比,效果很能打。
谷歌说,未来几周还会推出更多的计费方案。
我想切个黑洞,先用Imagen 4 Ultra (Preview) 生成一张图片。
Prompt:
超现实的特写,一把锋利的金属刀就在一个干净的木制砧板上的微型黑洞上方。黑洞的特征是一个旋转的,炽热的橙红色吸积盘,具有强烈的脉动光和强烈的反射。这把刀闪闪发光的刀刃非常精细,定位在第一次切割的位置。拿刀的手戴着极简主义的黑色手套。背景是黑暗和最小的,由吸积盘的强光投射出柔和的阴影。逼真,戏剧性的灯光,3D渲染风格,捕捉到撞击前的瞬间。
然后用Veo3生成ASMR视频:
一双戴着极简主义黑色手套的手。逼真的4K镜头,极端的宏观视角。锋利的刀慢慢地沉入木质砧板上一个微型黑洞的炽热吸积盘。圆盘在接触点发出明亮的闪光。突然间,黑洞的引力增强了。可见,刀刃像液态金属一样伸展和扭曲,被拉入视界,形成一股薄薄的发光流。当刀的其余部分消失时,手向后缩。声音是一个完美的人工智能生成的ASMR音景:一个深沉的,共振的嗡嗡声混合着尖锐的,空灵的嘶嘶声
【新手向】切割奇点事件视界操作指南V1.0:
1.速度必须超过逃逸速度,犹豫是败北的开始。
2.工具要选择高密度中子星合金,不然容易被潮汐力撕碎。
3.别看它,它也会看你。
剩下的,等我切完再补充… #一本正经的胡说八道 #宇宙级ASMR #硬核科普
继续生成其他的试试:
这些是Image4生成的:
一双光着的人的手。逼真的4K镜头特写,一只手拿着一个发光的余烬,在一块浅蓝色的冰上,代表着黑暗潮湿的石板上的“冰河时代”。余烬在不同的地方多次被举起,每次一小部分融化,发出柔和的嘶嘶声,在融化的水中露出微小的,被困的史前生物(如猛犸象或剑齿虎)。冰块的内部也充满了这些微小的冰冻人物。声音为ASMR风格,有嘶嘶声和滴水声。
由半透明玻璃制成的超现实香蕉,光滑,圆润的表面,内部有精细的气泡,放置在干净的表面上,强烈反射和高光的锐利照明,最小的背景,逼真,光滑的纹理,3D渲染风格,水晶般的外观,柔和的阴影,微距摄影。声音是ASMR风格:当玻璃皮弯曲并拉开时,会发出平滑、共振的刮擦声,当处理抛光的玻璃果时,会发出柔和、深沉的撞击声。
超现实的特写镜头,一把锋利的金属刀在干净的木制砧板上切割成一团稠密的黑色风暴云。云状的物质在缓慢地旋转和搅动。当刀子切开时,一道明亮的、噼啪作响的蓝色闪电出现了,它被困在暗物质的深处。拿刀的手戴着极简主义的黑色手套。背景是黑暗和最小的,戏剧性的灯光从闪电本身发出,在刀和手套上投射出尖锐的亮点。逼真,高对比度,3D渲染风格。
Imagen 4 Ultra:
Prompt: 一部三格宇宙史诗漫画。第一格:小小的“星尘号”飞船在星云中,雷达显示异常(文字“ANOMALY DETECTED”),船体有文字“stardust”。飞行员低语。第二格:一个生物发光的大海怪出现,控制台红色文字“WARNING!”。第三格:海怪在小行星带中追逐飞船,控制台红色文字“SHIELD CRITICAL!”,屏幕文字“EVADE!”。飞行员尖叫,音效“CRUNCH!”,“ROOOOAAARR!”。
Prompt: 一张京都复古旅行明信片的正面:标志性的宝塔在樱花下,远方是雪山,天空湛蓝,色彩鲜艳。
Prompt: 一张照片:一对热爱冒险的情侣在日出时分登上山顶,高举双臂庆祝胜利,下方是史诗般的全景山谷,光线极具戏剧性。
谷歌最近放出的风声和一些员工分享的预览图来看,AI Studio 可能要搞一波大更新了。
这次更新,不光是想让 AI Studio 功能更强,还想让它的界面跟其他主流 AI 平台看齐。
最近曝光的一个 AI Studio 新界面里,能看到一个经典的底部居中 prompt 输入框,这布局在主流 AI 聊天机器人里已经很常见了。
在这个版本里,用户能打开一个工具菜单,里面列出了“MCP servers”。这个传了很久的功能要是真上了,就意味着能集成更多模块化组件或插件,可以直接在 AI Studio 里搞更复杂的操作了。
左边还出现了一个新的“构建 (build)”部分,用来生成 App,还直接连上了 Jules SWE Agent。
虽然 Jules 现在还是个独立的 App,但这个连接暗示,它未来可能会被合并到 AI Studio 里,搞个统一的工作流。
之前还有人爆料过 Jules 在 macOS 上的桌面弹窗,但现在还不清楚这到底是在给 AI Studio 搞桌面客户端,还是 Jules 自己单干。
初创产品如何获得前100个用户?
首先,铺天盖地地去发布。
Product Hunt, DevHunt, BetaList, Peerlist, AppSumo, Indie Hackers, Dailypings... 只要是能让你提交产品的地方,别犹豫,直接上。
然后,发社交媒体。
就当你的身家性命都押在上面了。发一条没啥用,得连着干 100 天。看哪个火了,就学哪个,调整,然后重复。
看竞争对手。
看他们在哪些地方露脸,你也去同样的地方提交你的产品。手动搞,或者用工具,总之,干就完了。
AI + SEO = 免费流量。
用 ChatGPT 生成博客文章。50 篇高质量的文章就能撬动地球。想办法把网站的域名权重 (domain rating) 干到 15+。
花点钱,投广告。
X (推特), Google, Facebook... 甚至 Bing 都行。优化一次,然后就让它跑着。
最后,冷启动私信或者回复。
找到你的目标人群。要简短,要真实,要有帮助。一句话介绍自己,别发垃圾信息。
互联网就是这么赢下来的。
没什么秘密,就是持续、枯燥地干活。
然后,砰——100 个用户到手。
接着就是 1000 个。
Launch your product to new heights.
Hugging Face Spaces:询问AI来完成任何任务。视频中为:为视频 生成背景音频
MCP 与函数调用 比较:
Function Calling = 意图
MCP = 基础设施
8个热门Agent框架
文章来自于微信公众号“AI进修生”,作者是“Aitrainee”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0