开发者让 Codex「审」另一个 AI agent 写的代码,近万人围观:别让同一个大脑既当裁判又当运动员!
开发者让 Codex「审」另一个 AI agent 写的代码,近万人围观:别让同一个大脑既当裁判又当运动员!一个开发者公开了自己的工作流:让 OpenAI Codex 专门去审查 Hermes agent 写出来的代码,理由只有一个——审稿人不能和写稿人共享同一套记忆。这条推文引发了近万次浏览,背后藏着一个 agent 工程化的新趋势:多模型协作的价值,可能在于互相制衡。
搜索
一个开发者公开了自己的工作流:让 OpenAI Codex 专门去审查 Hermes agent 写出来的代码,理由只有一个——审稿人不能和写稿人共享同一套记忆。这条推文引发了近万次浏览,背后藏着一个 agent 工程化的新趋势:多模型协作的价值,可能在于互相制衡。
我的感受是框架用起来快,但有几个实际痛点。第一是抽象层太多,调试的时候不知道哪步出了问题,得一层层往下扒;第二是版本升级经常有破坏性变更,线上稳定性难保证;第三是框架的通用设计往往和具体业务需求有偏差,定制起来反而更费劲。手搓的代码完全在自己掌控之内,可观测性好、出问题好排查,也更方便做性能优化。所以我现在的策略是核心逻辑手写,只在边缘功能上用框架的工具。
毕竟,这个工具在我看来,他目前确实不仅是Claude Code里接国产模型,也还是其他的各种Agent产品比如OpenClaw、Hermes等等里面,切换模型最方便、最好用的一个。他就是开源的大名鼎鼎的cc switch,至今在github上已经50k的星标了。
刚刚,小米开源罗福莉带队研发的MiMo-V2.5系列模型,采用MIT协议,允许商用推理部署与二次训练,无需额外授权。此前,该系列模型于4月23日开启公测,包括MiMo-V2.5-Pro、MiMo-V2.5两款模型。模型具备更强Agent能力,支持100万上下文,且Token效率大幅提升。
2026 年的 AI 行业不断加速,仿佛只有一个正确答案:卷 Agent,卷效率,卷生产力。跑得慢的人都在补课,跑得快的人已经在找下一个风口了。但在京东 JoyInside 首届「AI 终端新物种」硬件创新大赛的现场,几个与提升效率完全无关的产品,却让我十分好奇。
两天前,Creati AI推出了新产品Buzzy。Buzzy是一个专门做视频修改的AI Agent。用户可以对视频说“把这个人换成我的脸”“把阴天变成黄昏”“去掉背景里的路人”,局部修改,其他不动。几乎同时,公司官宣了由红点领投的B轮融资,金额高达2000万美元。
SentiPulse(思维光谱)公测了一款叫 SentiCat 的产品,把这套理念落了地。一个有 Live2D 形象、有性格的数字角色 SUSU,负责陪你聊天、了解你、跟你建立关系;她的“AI 小猫”,负责写 PPT、查资料、改代码,脏活累活归它。
最近试用了一款上线的产品——Moxt,一个 Agent-Native Workspace。它要解决的正是这个问题:给团队加一排 AI 工位。这些 AI 员工能写报告、做研究、写代码、搭看板、跑自动化流程,7×24 小时在线,和真人团队在同一个工作空间里协作。更重要的是,能直接接入飞书和 Slack,在你熟悉的聊天窗口里被 @ 唤起干活。
在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。