Fulfillment：AGI 工程化的终极答案

没有 Fulfillment，就没有真正的 AGI 工程。
这不是一个新技巧，也不是又一个 AI Coding 流派名词。
这是我对这轮 AGI 工程化的最终判断。
如果你还把 AI 的价值理解成“更快写代码”，那你看到的不是未来，只是更高级的幻觉。

From verified modules to verified production.

4月4日，《定焦One》发了一篇很刺耳的报道：《大厂“牛马”，被迫用AI》。

里面有三个细节，几乎把今天所谓“AI 提效”的真相扒光了。

一个运营，为了交一份“AI成果”，把一个数据看板反复调了 80 遍，最后 PDF 虽然导出了，打开还是乱码。
一个工程师，为了凑 Kiro 使用次数，把一段参数校验代码删掉，让 AI 重写一遍，最后异常分支还得自己补回去。
一些部门，已经开始按 Token 和 Skills 考核，甚至要求 50% 的开发需求由 Agent 端到端生成。

你看，问题根本不是 AI 会不会写。
问题是，整个行业都在统计生成，却没有人对完成负责。

而我现在想讲的这个词，就是专门拿来解决这个问题的。

先把概念讲清楚。

Fulfillment 不是让 AI 更快把代码写出来。
Fulfillment 是让一个需求，被稳定地做进生产。

什么叫“做进生产”？

不是 PR 合了。
不是页面开了。
不是接口 200 了。
不是 Demo 漂亮了。

而是这个需求真的走完了：

• 能测试
• 能部署
• 能验收
• 出问题有人能接管
• 换个人、换模型、换机器，还能重建

如果你记不住这个英文词，那你就记一句人话：

Fulfillment 管的不是生成，管的是完成。

这也是我为什么越来越绝对地相信：
这轮 AGI 工程化，真正缺的不是更强的生成能力，而是 Fulfillment。

先把结论写在前面

TDD 不够。
Prompt Engineering 不够。
Context Engineering 不够。
Harness 不够。
Glue Coding 不够。
CLI 也不够。

不是因为这些东西没用。
而是因为它们都没有回答这轮 AGI 工程里最硬的那个问题：

一个需求，最后到底是怎么被真正做成的。

不是写出来。
不是跑起来。
不是演示成功。
不是截图好看。
而是：

• 测试链被打通
• 部署链被打通
• 环境障碍被扫清
• 全节点被更新
• 逐节点被验收
• 人类随时能接管
• 陌生人也能重建
• 最后进入 verified production

这件事，我现在只想用一个词来定义：

Fulfillment

它不是“完成一下任务”的那个完成。
它不是“交个差”的那个完成。
它指的是：

把一个需求推进到可验证、可部署、可接管、可重建、最终进入生产现实完成态的全过程。

这就是我现在的判断：

这轮 AGI 工程化的最终答案，不再是生成，不再是治理，而是 Fulfillment。

一、旧世界为什么不够了

过去几年，AI 工程圈一直在升级自己的词汇体系。

先是 TDD。
然后是 Prompt。
然后是 Context。
然后是 Harness。
再后来是 Glue、CLI、workflow、agent chain、自动化编排。

看起来像一层层进化。
但如果你真在生产一线打过滚，你会发现大多数词都在围绕同一件事打转：

怎么让 AI 更好地产生代码。

而这件事，本身就已经不是主战场了。

因为今天真正拖垮团队的，不是“生成得够不够快”，而是：

• 测试链没通
• 环境链没通
• 部署条件不满足
• 节点状态不一致
• 回归链路没人敢拍板
• 代码写完了，但工程没完成

很多人没有意识到，AI Coding 最大的幻觉不是 hallucination。
而是：

它让你误以为“生成出来了”，就已经接近完成。

不是。

在真实工程里，生成只是开始。
完成才是终局。

二、Harness 为什么不够，但问题不在它错

我不想廉价地否定 Harness。

Harness 已经比前几代东西成熟得多。
它第一次认真地把这些东西带进主流视野：

• 约束
• 反馈回路
• 文档
• Linter
• 生命周期管理
• agent 运行边界

这些都重要，而且必须有。

但 Harness 有一个天然的上限：

它仍然主要停留在治理层。

它解决的是：

• 如何让 agent 不乱跑
• 如何让 agent 更稳定
• 如何减少偏航
• 如何让 AI 更可控

这些当然对。

但真实生产现场的问题，经常根本不在这里。

真实现场的问题是：

• 这个测试到底跑没跑通
• 这个部署到底是不是正确产物
• 这个节点到底有没有被更新
• 这个 smoke 到底是真通过还是假通过
• 这个页面到底是线上真实结果，还是旧缓存假象
• 这个系统除了“看起来可用”，到底谁敢为完成负责

所以我现在对 Harness 的判断很清楚：

Harness 解决的是 agent governance。Fulfillment 解决的是 engineering completion into reality。

翻译成人话就是：

• Harness 管的是“AI 怎么被管住”
• Fulfillment 管的是“工程怎么真正做成”

这不是轻微升级。
这是工程重心的转移。

三、为什么我们不同于 TDD、Prompt、Context、Glue、CLI

如果你读到这里，第一反应是：这不就是 TDD、Prompt、Harness、CLI 换了个名字吗？

那正好说明，这个概念有必要单独拎出来。

因为前面这些东西，大多在解决局部问题：代码怎么更稳，模型怎么更听话，流程怎么更顺一点。
而 Fulfillment 要解决的是终局问题：

一个需求，怎样才算真的做成。

它不是在和这些词抢地盘。
它是在给这些词重新排座次。

这件事必须讲透。
因为如果这里讲不透，Fulfillment 就会被误解成又一个老词的新包装。

1. TDD 管代码正确性，不管工程完成态

TDD 很重要。
它能保证：

• 代码行为是否符合预期
• 重构是否回归
• 逻辑是否可验证

但它不天然解决：

• 测试链本身通不通
• 部署条件是否满足
• 多节点是否更新到正确产物
• 验收面是否真实可跑

所以 TDD 管得住代码，管不住 Fulfillment。

2. Prompt Engineering 管表达，不管执行系统

Prompt 管的是：

• 怎么把需求说清楚
• 怎么让模型更听话
• 怎么让一次输出更像样

但表达再好，也救不了：

• 端口冲突
• 缺失依赖
• 环境漂移
• 节点不一致
• 假通过的 smoke

Prompt 解决的是“怎么说”，不是“怎么做成”。

3. Context Engineering 管看见什么，不管打通什么

Context 往前走了一步。
它强调：

• 给模型正确资料
• 给模型正确代码库上下文
• 给模型正确规则

但很多真实失败根本不是没看见，而是：

• 环境没起来
• 部署没打通
• baseURL 不可用
• 节点根本不是同一个运行态

Context 解决的是“可见性”，不是“完成性”。

4. Glue Coding 管复用，不管兑现

Glue 最大的贡献是：

不要让 AI 从零创作，让它复用已存在模块。

这非常重要。

但 Glue 主要解决的是：

• 少原创
• 多复用
• 少犯风格和组件错误

它仍然没有直接回答：

• 谁来验证
• 谁来部署
• 谁来逐节点 smoke
• 谁来证明已经进入 production reality

Glue 解决的是“怎么少写”，不是“怎么兑现”。

5. CLI 不是理论核心，只是载体

CLI 也被很多人说过头了。

CLI 的价值不是“命令行更高级”。
CLI 真正的价值是：

把测试、部署、验收标准化，并给人类留下一个低成本可接管的执行入口。

也就是说：

• CLI 只是承载形式之一
• HTTP debug endpoint 也是
• smoke script 也是
• health endpoint 也是
• CI job 也是

真正新的不是 CLI-first。
而是：

verification-interface-first

所以 Fulfillment 不是“万物 CLI 化”。
Fulfillment 是：

一切关键交付动作，都必须有模型无关、可接管、可复跑的验证接口。

四、代码不是产物，完成态才是产物

这是我现在最想打死的一层幻觉。

过去我们默认认为：

• 代码写出来了，事情就差不多了
• 页面打开了，功能就差不多了
• 接口 200 了，系统就差不多了

这套思维在 AI 时代彻底过时。

因为 AI 最擅长做的，就是把“中间物”伪装成“最终产物”。

它能很快写出：

• 看起来完整的代码
• 看起来合理的结构
• 看起来成熟的接口
• 看起来像上线版本的页面

但这些都可能只是幻觉。

在生产环境里，真正能结算价值的，从来不是代码本身，而是：

• 被验证过的链路
• 被兑现的部署
• 被证明的运行态
• 被接管的执行面
• 被重建的系统能力

所以我现在的判断非常绝对：

代码不是产物。完成态才是产物。

而 Fulfillment，定义的就是这个完成态。

不是“勉强能跑”。
不是“看起来差不多”。
不是“先合进去再说”。

而是：

这个需求已经被推进到了现实世界里一个可验证、可部署、可接管、可重建的稳定完成态。

这才叫 Fulfillment。

五、真实 AI Coding 的真相：80% 不在代码里

我为什么越来越确定这件事？

因为只要你真做过一线 AI coding，你就会知道，今天最荒谬的误判，不是模型不够强，而是把那 15% 的编码爽感，错当成了 100% 的工程完成。

真实分布根本没变：

• 80% 花在环境
• 15% 花在编码
• 5% 花在奇葩问题

这不是夸张，这是交付现场。

前面那篇《定焦One》，只是把这种一线体感公开化了：运营卡在乱码导出，工程师卡在异常分支补锅，组织卡在 Token / Skills 这种伪指标。

它们表面上是不同岗位的不同痛点，本质上只在证明一件事：

生成快，不等于交付快。

你看，这里面最可怕的地方，不是 AI 不够强。

最可怕的地方是：

组织开始统计 AI 活跃度，却没有统计工程完成度。

也就是说，管理层看到的是：

• 你用了多少 Token
• 你调了多少次 AI
• 你写了多少 Skills
• 你有没有“积极拥抱新技术”

但真实世界要结算的，从来不是这些。

真实世界结算的是：

• 东西到底能不能交
• 数据到底有没有错
• 导出到底是不是乱码
• 异常分支到底补没补
• 部署后到底是不是正确运行态

这就是我为什么一直说，AI 时代最大的管理误判，不是低估模型，而是把“生成行为”错当成了“完成结果”。

甚至连正面案例，也仍然在证明同一件事。

报道里那位澳大利亚上市公司 CIO 说，AI 让产品需求文档从几周压缩到一天，效率确实翻倍。但他紧接着也承认：如果需求文档不扎实、商业逻辑不清晰，AI 的执行就会彻底跑偏。

这句话其实已经把 Fulfillment 讲完了：

AI 可以压缩生成时间，但不能替你完成对现实的负责。

你以为难点是：

• 如何把需求说清楚
• 如何让模型再多想一步
• 如何让 agent 再聪明一点

但真实难点往往是：

• 测试环境到底能不能起来
• 这个 baseURL 到底是不是通的
• 这个服务到底是谁在监听
• 这个节点到底有没有更新到正确产物
• 这个页面到底是新版本还是旧缓存
• 这个接口到底是真通过还是假通过

所以如果测试链和部署链不先打通，后面全是伪效率。

你让 AI 一分钟写完一个模块，看起来很爽。
但如果后面要花三小时修环境、查部署、做人肉 smoke，那不是效率提升。
那是更快地产生工程垃圾。

Fulfillment 的意义就在这里：

它把重心从“写出来”挪到“做进去”。

这一步不完成，AI 再强都只是表演。

六、为什么 skill 会过期，只有验证接口能穿越代际

很多人会误以为，未来最值钱的是 skill。

我现在越来越明确：

skill 很有用，但它不是长期资产。

原因很简单：

• skill 依赖当前模型
• skill 依赖当前 agent 框架
• skill 依赖当前提示体系
• 换模型、换 runtime、换 agent，很多 skill 立刻贬值

所以 skill 的本质，只是：

当前模型时代的临时适配层。

真正能穿越模型代际的，是别的东西：

• 测试链
• 部署链
• 验收接口
• smoke runner
• health check
• 回归脚本
• 可审计、可复跑、可接管的执行面

一句话说穿：

skill 服务模型，验证接口服务 Fulfillment。

skill 会过期。
验证接口不会。

因为模型再怎么变，现实世界都不会因为你换了个模型，就不需要：

• 健康检查
• 冒烟验证
• 多节点发布
• 验收回归
• 人类接管

这就是为什么 Fulfillment 不是某个 model hack。
它是工程现实的底层约束。

七、为什么可重建性必须被拉进来

如果只谈测试、部署、验收，还不够。

因为还有一个更深的问题：

这套系统能不能被重新搭起来。

这也是 snake-mvp-public-rebuild 这类思路真正打醒我的地方。

一个系统，不只是要能跑一次。
而是要能在：

• 人换了
• 模型换了
• 环境换了
• 机器换了
• 仓库迁移了

之后，仍然被重新搭起来。

这意味着什么？

意味着我们不能再把关键知识藏在：

• 某个人脑子里
• 某段临时 shell 里
• 某次口头交接里
• 某个只对当前模型有效的 skill 里

它必须被显式化成：

• smoke script
• acceptance runner
• deploy workflow
• debug endpoint
• health endpoint
• 文档化的接管面
• 可复跑的验证接口

也就是说，未来真正值钱的不是“某次我搞定了”。
而是：

我把这件事压成了别人也能重建的资产。

Fulfillment 不只是完成一次。
Fulfillment 要求你留下重建的路。

八、为什么 Fulfillment 是这轮 AGI 工程化的最终答案

现在可以把话说满了。

为什么我敢说 Fulfillment 是这轮 AGI 工程化的最终答案？

因为前面的理论，解决的都是局部问题：

• TDD 解决代码行为
• Prompt 解决表达
• Context 解决可见性
• Harness 解决治理
• Glue 解决复用
• CLI 解决入口标准化

但这些东西都没有单独回答一个终局问题：

需求最终是怎么被兑现进现实世界的。

而 Fulfillment 直接把这个问题定义成中心。

它要求的不只是：

• 会写
• 会跑
• 会测
• 会部署

而是把这些东西压成一个终局闭环：

从 verified modules 到 verified production。

不是一个模块成功。
不是一次演示成功。
不是一个 agent 表现不错。

而是整个工程链条被推进到了一个你敢签字、敢接管、敢重建、敢交给别人的现实完成态。

这就是为什么我说它是终局词。
因为它不是再补一个中间层。
它是在定义：

AGI 工程最终要对什么负责。

答案不是代码。
答案不是 agent。
答案不是框架。
答案是 Fulfillment。

九、第一天怎么开始，不然就会重演 TCD 的失败

理论再对，落不了地，就是新 PPT。

TCD 之前失败，我现在看得越来越清楚，主要有两条：

第一，宣传不够狠

如果你只是把一个新东西讲成：

• 一个优化
• 一个流程习惯
• 一个工程建议

那它传播不出去。
因为旧世界不会自己退场。

第二，落地不够小

如果你一上来就要求：

• 全量重构
• 全链路改造
• 大团队统一推进
• 新基础设施一次到位

它就一定会死。

所以我现在越来越坚定一条原则：

理论上要绝对，落地上要极小。

第一天怎么开始？只做四件事：

1. 选一个相对稳定的模块

不要上来就碰最复杂、最核心、最重的系统。

2. 给它补共享验证接口

最少也要有：

• health check
• smoke command
• acceptance 步骤
• 部署后回读验证

3. 强制把“修改 -> 部署 -> 验证”连成一条线

任何改动都不允许只停在代码层。

4. 下次再开发时，只描述 delta

不是重新解释整个需求。
而是明确：

• 沿用哪个 verified module
• 复用哪套验证接口
• 这次和上次的差异是什么

做到这里，你就已经开始进入 Fulfillment 时代了。

不是全自动。
不是全智能。
但它是真的。

十、这不是一个新口号，这是新的物理定律

过去几年，AI 工程最大的幻觉就是：

只要模型更强，问题就会自动消失。

不会。

模型会更强。
Prompt 会更花。
Context 会更长。
agent 会更像人。
skill 会越来越多。

但如果：

• 测试链没打通
• 部署链没打通
• 验收面没标准化
• 接管面没留下来
• 重建路径没显式化

最后一切都会回到原点。

所以我现在对这件事的判断非常绝对：

这轮 AGI 工程化，最终不会停在生成，也不会停在治理。
它最后一定会停在 Fulfillment。

因为只有 Fulfillment，才真正回答了：

一个需求，怎样才算被做成。

代码会被淘汰。
模型会换代。
skill 会过期。
框架会被替换。

但只要你把 Fulfillment 压成资产，
把验证接口、测试链、部署链、接管面、重建面压成现实系统，
你就开始拥有真正的工程复利。

所以别再问：

• 这个模型会不会写
• 这个 prompt 够不够强
• 这个 agent 聪不聪明

该问的是：

这套东西，能不能被 Fulfill。

这不是修辞。
这是这轮 AGI 工程化最后要服从的现实。

十一、Fulfillment 时代，谁该先改自己？

先改的不是模型，是人。

如果组织和个体还在按旧世界的逻辑理解 AI，那模型越强，工程现场只会越乱。

1. 老板：别再考核 Token，要考核闭环率

一句判断：你奖励什么，组织就会伪装成什么。

如果你考核的是 Token、调用次数、Skill 数量，团队就会越来越会“表演 AI 使用”，越来越不会对真实交付负责。

正确的考核口径只有一个：需求有没有被推进到可验证、可部署、可接管、可重建的完成态。最少也要看上线闭环率、验收通过率、部署后稳定度，而不是“这周大家又调用了多少次模型”。

2. 产品经理：别只写 PRD，要写可验证契约

一句判断：模糊需求最适合制造幻觉，不适合驱动 Fulfillment。

未来的好产品经理，不是谁写 PRD 最长，而是谁能把输入、输出、状态迁移、异常路径、验收口径写成所有人都能执行的契约。

需求如果只可讨论、不可验证，Agent 只会把它放大成更漂亮的偏航。你要学会提前定义：这件事什么算完成，谁来验证，失败怎么回退，验收证据是什么。

3. 开发者：别再执着“我写了什么”，要执着“我留下了什么验证面”

一句判断：未来最值钱的开发者，不是写得最快的人，而是最会把系统压成 verified module 的人。

手写 CRUD 的价值会越来越低，但把模块边界、健康检查、smoke、回归脚本、部署回读、人工接管入口做扎实的能力会越来越贵。

你真正的产出，不再只是代码文件，而是一组别人能复用、模型能调用、出事后人类能接管的验证接口。

4. 一人公司 / 独立开发者：不要迷信全自动，要迷信可重建

一句判断：独立开发者最大的护城河，不是比别人更会用模型，而是比别人更早把自己的工作流压成资产。

你的人手最少，最经不起“这次跑通、下次重来”。所以你最该做的，不是让 Agent 一把梭，而是把注册、部署、验收、发版、回滚、排障这些脏活，逐步压成你自己的小型 Fulfillment 系统。

只有当这些环节都能被你自己反复复跑、被别人接手重建，你才真正拥有了一人公司的复利。

十二、最后一句最重要

写到这里，我对这件事的判断已经很直接了。

过去我们讨论 AGI 工程，最爱讨论的是模型、Prompt、上下文、Agent、自动化。
这些东西当然重要。
但它们都还停留在“怎么更好地产生结果”。

而真正决定生死的，是另一件更冷的事：

这个结果，最后有没有被做进现实。

老板看这个问题，会开始明白为什么不能再拿 Token 当成绩。
产品看这个问题，会开始明白为什么需求必须写成可验证契约。
开发看这个问题，会开始明白为什么真正值钱的不是多会写，而是多会留下验证面和接管面。
独立开发者看这个问题，会开始明白为什么一人公司真正的复利，不在模型本身，而在那套你能反复复跑的交付系统。

我之所以越来越相信这件事，不只是因为我看了多少文章，而是因为我在真实工程里一次次撞到同一个墙。
也是因为像 snake-mvp-public-rebuild 这类重建型思路，反复把我打醒：真正难的，从来不是首版写出来；真正难的是换一个人、换一个模型、换一台机器之后，你还能不能把它重新搭起来。

所以接下来真正值得下注的问题，已经不是“哪个模型更强”。
而是：

谁能先把自己的业务，压成一套可 Fulfill 的系统。

这才是我想留下的最后一句话：

真正的 AI 工程，不对代码负责，只对 Fulfillment 负责。