你的Codex一个任务能跑多久?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
你的Codex一个任务能跑多久?
8574点击    2026-06-10 10:31

哈喽,大家好,我是刘小排。


前几天我们讨论过一个观点:自从2026年Q2起,未来人类所谓的“编程工作”其实比拼的是「谁能一次性把“什么叫完成”定义清楚」


一问一答式的Vibe Coding的时代已经结束


“定义清楚”是什么感觉呢?


就是,当你写完需求文档和验收标准后(可能要花几小时,甚至几天),你就能Codex自己执行、自己优化、直到完成全部验收标准。当它宣布“完成”的时候,你进行验收,发现完完全全就是你想要的。


例如, 我一个正在进行的任务,已经跑了22小时了,我估计还需要20小时左右。


如果想知道22小时到底在干啥,文末有更多截图。


你的Codex一个任务能跑多久?


我们继续。


写到这里,我发现,所谓“定义清楚”,并没有那么容易,


它至少应该包括:


  1. 底层逻辑的拆解 你不仅是在描述一个功能,更是在定义数据流转的确定性。
  2. 技术边界与异常路径的闭环 你要预判技术实现时的物理极限。如果你不懂网络协议的重试机制,或者不懂内存管理的泄漏风险,你根本无法定义“系统在极端弱网下的鲁棒性”具体指什么。
  3. 性能与成本的硬约束定义 只有当你懂技术实现的轻重缓急,才能在定义中写明:是在毫秒级响应下追求极致性能,还是在有限资源下寻找平衡点。
  4. 验证逻辑的可复现性标准 定义“完成”最难的部分是定义“如何证明它完成了”。如果你不懂单元测试、集成测试或压力测试的技术底座,你给出的验收标准就会是模糊的“感觉好用”。你必须懂什么叫接口的幂等性,什么叫原子化操作,才能在定义中给出AI无法回避、且必须硬性达标的验证指标。
  5. 语义歧义的技术消融 很多时候你觉得说清楚了,其实只是在用文学修辞替代技术语言。真正的清晰是基于技术概念的共识。如果你不懂什么是解耦、什么是异步、什么是序列化,你描述的需求就会充满逻辑漏洞。
  6. 人性与心理,“体验直觉” 只有当你懂心理学原理,才能在定义中写清楚:什么叫“流畅的交互体验”,什么叫“克制的广告展示”。如果你自己不懂美的标准和人性弱点,你给出的验收标准就会极其生硬,导致AI交付的产品虽然“能用”,但却“难用”。
  7. 商业价值的“北极星”锚定。 AI能够高效执行任务,但它并不理解“为什么要赚钱”或“为什么要省钱”。定义清楚意味着你必须洞悉业务的底层盈利模式或核心增长引擎。
  8. 组织语境下的“共识边界” 在一个复杂的系统里,任何任务都不是孤立存在的。
  9. ……


列表可以还可以继续扩展下去。


我想表达是:虽然AI看上去无所不能,但是互联网企业在过去二十年总结出来的做产品的流程、技术架构、方法论、组织和协同、内功,从来都没有变过。


可怕的是,很多人并不了解这一点。他们只会抱怨:


“AI太笨了”


“我明明说清楚了,AI就是做不出来”


“我都说了一万次了”


“为什么还是很丑?”


……


在AI时代,最可怕是你“不知道自己不知道”。


当你懂得原理时,你的定义就是一个严密的契约,每一个约束项都是基于物理现实和逻辑推演的;


当你不懂原理时,你的定义就是一张概率性的彩票,你只能祈祷AI的随机采样刚好落在了你想要的那个区间,你只是在“许愿”(俗称“抽卡”)。


因此,我想邀请你参与这个小游戏,也许可以用于自测「 能一次性把“什么叫完成”定义清楚 」的能力 ——


试试看,你能让Codex在一个任务里跑多久、并且一次性出来的正好就是你想要的?


在最开始展示的截图里,为什么我的Codex能够连续干活几十个小时?


因为它在根据我们预先确定的标准,不断测试、评估、改进自己的的工作,周而复始,不达目标不罢休。


下面是其中一部分的过程截图,Codex正在把某个指标从原始的46分提升到了100分。


你的Codex一个任务能跑多久?


你的Codex一个任务能跑多久?


欢迎参与比赛!


请在评论区贴出来图:你的Codex一个任务跑了多久? (前提:出来的东西正好是你想要的)


文章来自于"刘小排r",作者 "刘小排r"。

AITNT-国内领先的一站式人工智能新闻资讯网站