2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

10228点击 2026-06-18 15:29

大家好，我是袋鼠帝。

如果你家的猫狗真的能说话，它们开口第一句会说什么？

作为一个家里养了10几只猫+一只狗子的铲屎官，我在很多时候都在想，要是我能听懂它们说话，它们也能听懂我说话就好了。

说真的，只要这个做好了，没有一个铲屎官会不心动的。

我当时就有预感，宠物翻译，可能会是下一个AI消费级机会..

2025年10月，我忍不住把这个想法记了下来：宠物AI翻译应用（硬件+软件）。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

但这里面最难的点在于宠物翻译本身，需要大量的宠物声音样本作为语料，单独微调甚至训练一个专用模型出来，短时间很难搞定。

于是我决定先从一个MVP应用起步：

用户录下宠物声音，AI给出一个可能的情绪判断和解释文案。前期不一定要替代真正的宠物行为学，但至少可以让人和宠物之间多一个温柔的理解入口。

当然，除了宠物翻译，宠物周边的一些功能也不能少。

这次我主要用到Image2生成视觉素材，然后用新鲜发布的GLM-5.2完成整个方案制定、产品设计、界面实现、交互迭代和前后端逻辑。

先看成品，它已经是个小产品了

支持三端访问网址：电脑端、手机端、商家后台

手机端App，面向宠物家长们，质感非常棒，还有很多动效。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

这次就是冲着要做一个商业产品去的，没想到GLM-5.2+Image2真的做到了，远超出了我的预期！

包含宠物声音翻译、宠物档案、商城、消息、我的页面。功能齐全～

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

PC端页面（网页）也做得很nice，这个之前在短视频刷到的贼好玩的登录页交互效果也做出来了。

包含录音翻译、宠物动图、最近翻译记录、商城和个人信息。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

当然，商家后台也得有，面向宠物商品商家，包含商品管理、订单管理、库存统计、销售数据、消息推送和客服对话。

都是借助GLM-5.2，完全跟后端、数据库打通了的。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

已经有了比较完整的产品闭环：

用户可以录音，后端能返回翻译结果，宠物档案可以切换当前宠物，商城能展示商品，用户可以加入购物车和下单，商家后台能管理商品和订单。perfect！

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

这个产品能做到这个完整度，GLM-5.2功不可没。而且通过这次的开发，我感觉GLM-5.2的前端审美提升很大。

顺便提一嘴，GLM-5.2是智谱刚刚开源的大模型，在Code Arena上拿下了全球可用模型第一。

Code Arena是全球百万用户参与盲测的前端开发评估系统，能在上面排第一，代码能力必须过硬。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

再加上支持1M无损上下文，还是用的MIT开源协议，无地域限制，技术平权无国界。我只能说相当respect🫡！

接下来，我给大家拆解一下这次的开发过程，结合GLM-5.2+Image2这个组合来做App，真是太夯了～希望对大家有所启发。

对了，GLM-5.2和Image2都是接入Claude Code使用的。

Image2负责门面、素材

这次工作流里，Image2和GLM-5.2的分工明确。Image2负责生成视觉资产，帮我生成了一堆宠物相关素材：

有黑色小猫、小狗形象

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

各种姿态的宠物形象素材，以及各种图标。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

这些素材决定了产品第一眼的气质。

生成这些素材的提示词很简单，就跟接入GLM-5.2的Claude Code说：根据产品PRD和UI风格，生成一份xxx图标即可。

这确实方便太多了，以前手敲代码的时代还要去网上找合适的图标，找到之后还要手动放到对应的位置。

但只有图片还不够。后面更有难度的事情是：怎么把这些视觉素材融入进一个能交互、能切换状态、能留存数据、能跨端复用的产品。这就是GLM-5.2的活了。

GLM-5.2是超强大脑，执行力也是Max

我一开始是给了GLM-5.2一份完整详细的PRD（产品需求文档）

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

扔需求过去，它会先进入Plan模式，把整个任务拆成细小的可执行的步骤规划，然后逐步推进。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

做着做着，我经常会有一些新想法随时会加进去，它都能很好的接住。

后面，我把Image2生成的所有素材文件直接丢给它。

不用我一个个解释哪个图是什么、打算放在哪里，它自己全看懂了，能判断出每个素材的用途。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

有个可惜的点是，GLM-5.2虽然代码能力很强了，但还是没支持视觉理解(┬＿┬)。

所以一开始生成图片的时候就要让它把图片命名做好，后面它才分得清图片。

要不就是安装智谱提供的视觉理解MCP。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

然后过程中肯定有一些调整和优化，我会描述我想要的效果，这个过程里让我印象最深的是，它对模糊需求的理解能力。

比如我简单说了一句"商品卡片太大了"，它不是只改个长宽就完事，它能判断出应该同时调整图片尺寸、卡片布局、网格排列和按钮大小，一次性给我改到位了。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

而且它对Skill的调用也很丝滑。在需要用到特定能力的时候，不用我手动提示，它自己就能自主选择合适的Skill来处理。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

同时，这个项目里有不少状态联动的场景：比如用户切换宠物档案的时候，翻译页面、商城推荐、消息列表都需要跟着变。

我以前开发的时候最怕改这种场景了，很容易改漏，或者改错一个公共方法，就容易牵一发而动全身。。

但这种多模块联动的逻辑，它理得挺清楚，没有出现"改了A忘了B"的情况。

这应该是得益于它的1M无损上下文理解能力。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

最让我意外的是跨端迁移能力。

最开始这个项目只要求做手机端，后来我临时起意想加个PC端。我都做好了折腾半天的心理准备。

结果GLM-5.2直接基于已有的手机端项目，很顺利的就把整个产品完完整整地移植到了PC端React版本。

样式适配、交互逻辑、数据结构，基本全都接上了。这个迁移的工程量不小，但它愣是一口气花了30多分钟给我干完了。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

在成果交付之前，它还会自己主动跑一遍验证，检查功能有没有遗漏、有没有新的bug。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

然后，搞定～

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

最后a端、b端、c端的联调验证，以及部署流程，它都能很好的完成。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

登录页超有意思的鼠标跟随效果

宠物类App如果没有动效，就没有灵魂，就会显得很呆。

可以让它给一些动画的方案。给方案的同时，甚至还会画简易图来展示这个动画的大致效果，这就很棒～

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

我在登录页和首页都设计了一些动效。

登录页里有四只用纯代码绘制的小动物。它们从页面底部探出头来，眼睛还会跟随鼠标转动，根据鼠标点击的不同的地方都会给不同的反馈，非常有意思。

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

Prompt：一套登录页卡通宠物吉祥物动画，扁平矢量 kawaii 风，圆润治愈，荧光黄绿(#c8ff3d)品牌主色。四只宠物从画面底部台子探出头，只露脑袋和前爪，水平排成一排：

① **黑炭猫**（居中、最大、主角）：炭黑色圆方脑袋，两只三角尖耳，亮黄色大圆眼（黑瞳孔带白点高光），灰色小鼻，嘴角弧线，两侧各三根白胡须；② **深棕狗**（最左、略小）：深棕黑脑袋，两只粉色长垂耳耷拉两侧，荧光绿大眼，粉鼻；③ **米白兔**（中右）：奶白圆脑袋，两根超长竖直圆筒耳（耳内粉），荧光绿大眼，粉鼻；④ **棕熊**（最右、最小）：棕色脑袋，头顶两侧两只小圆耳，口鼻部一块浅米色斑，亮黄大眼，深褐鼻。

场景：圆角白底卡片，叠荧光绿+暖黄径向光晕和淡绿网格，底部两个半埋的淡绿同心圆环，宠物脚下一条绿色波形条像音频可视化循环跳动。

动作逻辑：待机时四只宠物错峰上下呼吸浮动、眼睛跟随光标；输手机号时集体扭头看右下；切到注册页整排探得更高更鲜艳；输昵称时升高、张嘴笑、举右爪挥手、轻弹跳；**输密码时中间的黑炭猫用两只前爪捂住眼睛（眯成一条缝），其他三只照常探头**；**点"显示密码"时黑炭猫用左爪扒开一条缝、露出一只放大的眼睛偷瞄**；登录失败时四只左右摇晃、嘴翻成哭脸；登录成功时波形条加速跳动、宠物向上弹跳张嘴大笑。整体节奏轻快有弹性（spring 缓动），治愈可爱，透明背景或柔和渐变背景。

不过，这次动画不是一次做成的。

GLM-5.2根据我的反馈做了多轮调整（主要是我的想法变来变去的..）

2天手搓商业级App！开源GLM-5.2+Image2太绝了～【附教程】

这些交互是状态驱动的UI动画。

GLM-5.2拆成了React状态管理、CSS变量、CSS动画、输入框的focus/blur事件监听、鼠标位置计算、不同mood对应不同动作，每一层都做得很顺。

「最后」

最近我发现市面上其实已经有了一款搭配硬件的宠物翻译App，叫PettiChat。

说明我有这个想法的时候，别人也同样洞察到了，而且已经率先做出来了。

想到这里确实有点懊恼，2025年10月我就记下了这个需求，一直拖到现在才动手。

但转念想想，现在也不算晚。宠物市场这么大，一家肯定吃不下的。而且我手里已经有了一套能跑的MVP，后面要继续推进宠物翻译那块，把它真正做到精准。

另外，这次开发给我最大的感受是：Coding的门槛又又又降低了，而做出来的东西的上限也在同步拉高。

过去几个月，AI Coding快速开发出来的产品，即便功能完善，但仔细看起来大多还是比较粗糙的。

这次用GLM-5.2做完之后，我明显感觉产品的整体质感上了一个台阶。

Image2让我快速拿到了产品的视觉资产，GLM-5.2则把这些视觉想法推进成了一个完整的系统。一个负责门面，一个负责逻辑开发。

整个三端的开发，包含电脑端、手机端、商家后台，只花了2天就差不多搞定了。

一个想法到一个产品之间的距离，又一次被大幅压缩。过去卡住你的那些环节，视觉设计、前端实现、后端逻辑、多端适配、部署上线，现在可以一个人更顺利的串起来了。

回到开头那个问题：如果你家的猫狗能说话，它们第一句会说什么？

我现在觉得，也许用不了多久，我们真的能听到答案了 🐱

我觉得AI时代，有想法就尽快大胆的去做，现在试错成本真的是越来越低了。

如果你也看好这个宠物翻译产品，欢迎来找我聊聊，或许我们可以合作。我非常希望把它继续完善，做成一个商业化产品。

文章来自于"袋鼠帝AI客栈"，作者 "袋鼠帝、小t"。

关键词: AI新闻 , 宠物AI翻译 , 宠物AI翻译教程 , 宠物AI翻译编程

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0