Fulfillment:AGI 工程化的终极答案

没有 Fulfillment,就没有真正的 AGI 工程。
这不是一个新技巧,也不是又一个 AI Coding 流派名词。
这是我对这轮 AGI 工程化的最终判断。
如果你还把 AI 的价值理解成“更快写代码”,那你看到的不是未来,只是更高级的幻觉。

From verified modules to verified production.

4月4日,《定焦One》发了一篇很刺耳的报道:《大厂“牛马”,被迫用AI》。

里面有三个细节,几乎把今天所谓“AI 提效”的真相扒光了。

一个运营,为了交一份“AI成果”,把一个数据看板反复调了 80 遍,最后 PDF 虽然导出了,打开还是乱码。
一个工程师,为了凑 Kiro 使用次数,把一段参数校验代码删掉,让 AI 重写一遍,最后异常分支还得自己补回去。
一些部门,已经开始按 Token 和 Skills 考核,甚至要求 50% 的开发需求由 Agent 端到端生成。

你看,问题根本不是 AI 会不会写。
问题是,整个行业都在统计生成,却没有人对完成负责。

而我现在想讲的这个词,就是专门拿来解决这个问题的。

先把概念讲清楚。

Fulfillment 不是让 AI 更快把代码写出来。
Fulfillment 是让一个需求,被稳定地做进生产。

什么叫“做进生产”?

不是 PR 合了。
不是页面开了。
不是接口 200 了。
不是 Demo 漂亮了。

而是这个需求真的走完了:

如果你记不住这个英文词,那你就记一句人话:

Fulfillment 管的不是生成,管的是完成。

这也是我为什么越来越绝对地相信:
这轮 AGI 工程化,真正缺的不是更强的生成能力,而是 Fulfillment。


先把结论写在前面

TDD 不够。
Prompt Engineering 不够。
Context Engineering 不够。
Harness 不够。
Glue Coding 不够。
CLI 也不够。

不是因为这些东西没用。
而是因为它们都没有回答这轮 AGI 工程里最硬的那个问题:

一个需求,最后到底是怎么被真正做成的。

不是写出来。
不是跑起来。
不是演示成功。
不是截图好看。
而是:

这件事,我现在只想用一个词来定义:

Fulfillment

它不是“完成一下任务”的那个完成。
它不是“交个差”的那个完成。
它指的是:

把一个需求推进到可验证、可部署、可接管、可重建、最终进入生产现实完成态的全过程。

这就是我现在的判断:

这轮 AGI 工程化的最终答案,不再是生成,不再是治理,而是 Fulfillment。


一、旧世界为什么不够了

过去几年,AI 工程圈一直在升级自己的词汇体系。

先是 TDD。
然后是 Prompt。
然后是 Context。
然后是 Harness。
再后来是 Glue、CLI、workflow、agent chain、自动化编排。

看起来像一层层进化。
但如果你真在生产一线打过滚,你会发现大多数词都在围绕同一件事打转:

怎么让 AI 更好地产生代码。

而这件事,本身就已经不是主战场了。

因为今天真正拖垮团队的,不是“生成得够不够快”,而是:

很多人没有意识到,AI Coding 最大的幻觉不是 hallucination。
而是:

它让你误以为“生成出来了”,就已经接近完成。

不是。

在真实工程里,生成只是开始。
完成才是终局。


二、Harness 为什么不够,但问题不在它错

我不想廉价地否定 Harness。

Harness 已经比前几代东西成熟得多。
它第一次认真地把这些东西带进主流视野:

这些都重要,而且必须有。

但 Harness 有一个天然的上限:

它仍然主要停留在治理层。

它解决的是:

这些当然对。

但真实生产现场的问题,经常根本不在这里。

真实现场的问题是:

所以我现在对 Harness 的判断很清楚:

Harness 解决的是 agent governance。Fulfillment 解决的是 engineering completion into reality。

翻译成人话就是:

这不是轻微升级。
这是工程重心的转移。


三、为什么我们不同于 TDD、Prompt、Context、Glue、CLI

如果你读到这里,第一反应是:这不就是 TDD、Prompt、Harness、CLI 换了个名字吗?

那正好说明,这个概念有必要单独拎出来。

因为前面这些东西,大多在解决局部问题:代码怎么更稳,模型怎么更听话,流程怎么更顺一点。
而 Fulfillment 要解决的是终局问题:

一个需求,怎样才算真的做成。

它不是在和这些词抢地盘。
它是在给这些词重新排座次。

这件事必须讲透。
因为如果这里讲不透,Fulfillment 就会被误解成又一个老词的新包装。

1. TDD 管代码正确性,不管工程完成态

TDD 很重要。
它能保证:

但它不天然解决:

所以 TDD 管得住代码,管不住 Fulfillment。

2. Prompt Engineering 管表达,不管执行系统

Prompt 管的是:

但表达再好,也救不了:

Prompt 解决的是“怎么说”,不是“怎么做成”。

3. Context Engineering 管看见什么,不管打通什么

Context 往前走了一步。
它强调:

但很多真实失败根本不是没看见,而是:

Context 解决的是“可见性”,不是“完成性”。

4. Glue Coding 管复用,不管兑现

Glue 最大的贡献是:

不要让 AI 从零创作,让它复用已存在模块。

这非常重要。

但 Glue 主要解决的是:

它仍然没有直接回答:

Glue 解决的是“怎么少写”,不是“怎么兑现”。

5. CLI 不是理论核心,只是载体

CLI 也被很多人说过头了。

CLI 的价值不是“命令行更高级”。
CLI 真正的价值是:

把测试、部署、验收标准化,并给人类留下一个低成本可接管的执行入口。

也就是说:

真正新的不是 CLI-first。
而是:

verification-interface-first

所以 Fulfillment 不是“万物 CLI 化”。
Fulfillment 是:

一切关键交付动作,都必须有模型无关、可接管、可复跑的验证接口。


四、代码不是产物,完成态才是产物

这是我现在最想打死的一层幻觉。

过去我们默认认为:

这套思维在 AI 时代彻底过时。

因为 AI 最擅长做的,就是把“中间物”伪装成“最终产物”。

它能很快写出:

但这些都可能只是幻觉。

在生产环境里,真正能结算价值的,从来不是代码本身,而是:

所以我现在的判断非常绝对:

代码不是产物。完成态才是产物。

而 Fulfillment,定义的就是这个完成态。

不是“勉强能跑”。
不是“看起来差不多”。
不是“先合进去再说”。

而是:

这个需求已经被推进到了现实世界里一个可验证、可部署、可接管、可重建的稳定完成态。

这才叫 Fulfillment。


五、真实 AI Coding 的真相:80% 不在代码里

我为什么越来越确定这件事?

因为只要你真做过一线 AI coding,你就会知道,今天最荒谬的误判,不是模型不够强,而是把那 15% 的编码爽感,错当成了 100% 的工程完成

真实分布根本没变:

这不是夸张,这是交付现场。

前面那篇《定焦One》,只是把这种一线体感公开化了:运营卡在乱码导出,工程师卡在异常分支补锅,组织卡在 Token / Skills 这种伪指标。

它们表面上是不同岗位的不同痛点,本质上只在证明一件事:

生成快,不等于交付快。

你看,这里面最可怕的地方,不是 AI 不够强。

最可怕的地方是:

组织开始统计 AI 活跃度,却没有统计工程完成度。

也就是说,管理层看到的是:

但真实世界要结算的,从来不是这些。

真实世界结算的是:

这就是我为什么一直说,AI 时代最大的管理误判,不是低估模型,而是把“生成行为”错当成了“完成结果”。

甚至连正面案例,也仍然在证明同一件事。

报道里那位澳大利亚上市公司 CIO 说,AI 让产品需求文档从几周压缩到一天,效率确实翻倍。但他紧接着也承认:如果需求文档不扎实、商业逻辑不清晰,AI 的执行就会彻底跑偏。

这句话其实已经把 Fulfillment 讲完了:

AI 可以压缩生成时间,但不能替你完成对现实的负责。

你以为难点是:

但真实难点往往是:

所以如果测试链和部署链不先打通,后面全是伪效率。

你让 AI 一分钟写完一个模块,看起来很爽。
但如果后面要花三小时修环境、查部署、做人肉 smoke,那不是效率提升。
那是更快地产生工程垃圾。

Fulfillment 的意义就在这里:

它把重心从“写出来”挪到“做进去”。

这一步不完成,AI 再强都只是表演。


六、为什么 skill 会过期,只有验证接口能穿越代际

很多人会误以为,未来最值钱的是 skill。

我现在越来越明确:

skill 很有用,但它不是长期资产。

原因很简单:

所以 skill 的本质,只是:

当前模型时代的临时适配层。

真正能穿越模型代际的,是别的东西:

一句话说穿:

skill 服务模型,验证接口服务 Fulfillment。

skill 会过期。
验证接口不会。

因为模型再怎么变,现实世界都不会因为你换了个模型,就不需要:

这就是为什么 Fulfillment 不是某个 model hack。
它是工程现实的底层约束。


七、为什么可重建性必须被拉进来

如果只谈测试、部署、验收,还不够。

因为还有一个更深的问题:

这套系统能不能被重新搭起来。

这也是 snake-mvp-public-rebuild 这类思路真正打醒我的地方。

一个系统,不只是要能跑一次。
而是要能在:

之后,仍然被重新搭起来。

这意味着什么?

意味着我们不能再把关键知识藏在:

它必须被显式化成:

也就是说,未来真正值钱的不是“某次我搞定了”。
而是:

我把这件事压成了别人也能重建的资产。

Fulfillment 不只是完成一次。
Fulfillment 要求你留下重建的路。


八、为什么 Fulfillment 是这轮 AGI 工程化的最终答案

现在可以把话说满了。

为什么我敢说 Fulfillment 是这轮 AGI 工程化的最终答案?

因为前面的理论,解决的都是局部问题:

但这些东西都没有单独回答一个终局问题:

需求最终是怎么被兑现进现实世界的。

而 Fulfillment 直接把这个问题定义成中心。

它要求的不只是:

而是把这些东西压成一个终局闭环:

从 verified modules 到 verified production。

不是一个模块成功。
不是一次演示成功。
不是一个 agent 表现不错。

而是整个工程链条被推进到了一个你敢签字、敢接管、敢重建、敢交给别人的现实完成态。

这就是为什么我说它是终局词。
因为它不是再补一个中间层。
它是在定义:

AGI 工程最终要对什么负责。

答案不是代码。
答案不是 agent。
答案不是框架。
答案是 Fulfillment。


九、第一天怎么开始,不然就会重演 TCD 的失败

理论再对,落不了地,就是新 PPT。

TCD 之前失败,我现在看得越来越清楚,主要有两条:

第一,宣传不够狠

如果你只是把一个新东西讲成:

那它传播不出去。
因为旧世界不会自己退场。

第二,落地不够小

如果你一上来就要求:

它就一定会死。

所以我现在越来越坚定一条原则:

理论上要绝对,落地上要极小。

第一天怎么开始?只做四件事:

1. 选一个相对稳定的模块

不要上来就碰最复杂、最核心、最重的系统。

2. 给它补共享验证接口

最少也要有:

3. 强制把“修改 -> 部署 -> 验证”连成一条线

任何改动都不允许只停在代码层。

4. 下次再开发时,只描述 delta

不是重新解释整个需求。
而是明确:

做到这里,你就已经开始进入 Fulfillment 时代了。

不是全自动。
不是全智能。
但它是真的。


十、这不是一个新口号,这是新的物理定律

过去几年,AI 工程最大的幻觉就是:

只要模型更强,问题就会自动消失。

不会。

模型会更强。
Prompt 会更花。
Context 会更长。
agent 会更像人。
skill 会越来越多。

但如果:

最后一切都会回到原点。

所以我现在对这件事的判断非常绝对:

这轮 AGI 工程化,最终不会停在生成,也不会停在治理。
它最后一定会停在 Fulfillment。

因为只有 Fulfillment,才真正回答了:

一个需求,怎样才算被做成。

代码会被淘汰。
模型会换代。
skill 会过期。
框架会被替换。

但只要你把 Fulfillment 压成资产,
把验证接口、测试链、部署链、接管面、重建面压成现实系统,
你就开始拥有真正的工程复利。

所以别再问:

该问的是:

这套东西,能不能被 Fulfill。

这不是修辞。
这是这轮 AGI 工程化最后要服从的现实。


十一、Fulfillment 时代,谁该先改自己?

先改的不是模型,是人。

如果组织和个体还在按旧世界的逻辑理解 AI,那模型越强,工程现场只会越乱。

1. 老板:别再考核 Token,要考核闭环率

一句判断:你奖励什么,组织就会伪装成什么。

如果你考核的是 Token、调用次数、Skill 数量,团队就会越来越会“表演 AI 使用”,越来越不会对真实交付负责。

正确的考核口径只有一个:需求有没有被推进到可验证、可部署、可接管、可重建的完成态。最少也要看上线闭环率、验收通过率、部署后稳定度,而不是“这周大家又调用了多少次模型”。

2. 产品经理:别只写 PRD,要写可验证契约

一句判断:模糊需求最适合制造幻觉,不适合驱动 Fulfillment。

未来的好产品经理,不是谁写 PRD 最长,而是谁能把输入、输出、状态迁移、异常路径、验收口径写成所有人都能执行的契约。

需求如果只可讨论、不可验证,Agent 只会把它放大成更漂亮的偏航。你要学会提前定义:这件事什么算完成,谁来验证,失败怎么回退,验收证据是什么。

3. 开发者:别再执着“我写了什么”,要执着“我留下了什么验证面”

一句判断:未来最值钱的开发者,不是写得最快的人,而是最会把系统压成 verified module 的人。

手写 CRUD 的价值会越来越低,但把模块边界、健康检查、smoke、回归脚本、部署回读、人工接管入口做扎实的能力会越来越贵。

你真正的产出,不再只是代码文件,而是一组别人能复用、模型能调用、出事后人类能接管的验证接口。

4. 一人公司 / 独立开发者:不要迷信全自动,要迷信可重建

一句判断:独立开发者最大的护城河,不是比别人更会用模型,而是比别人更早把自己的工作流压成资产。

你的人手最少,最经不起“这次跑通、下次重来”。所以你最该做的,不是让 Agent 一把梭,而是把注册、部署、验收、发版、回滚、排障这些脏活,逐步压成你自己的小型 Fulfillment 系统。

只有当这些环节都能被你自己反复复跑、被别人接手重建,你才真正拥有了一人公司的复利。


十二、最后一句最重要

写到这里,我对这件事的判断已经很直接了。

过去我们讨论 AGI 工程,最爱讨论的是模型、Prompt、上下文、Agent、自动化。
这些东西当然重要。
但它们都还停留在“怎么更好地产生结果”。

而真正决定生死的,是另一件更冷的事:

这个结果,最后有没有被做进现实。

老板看这个问题,会开始明白为什么不能再拿 Token 当成绩。
产品看这个问题,会开始明白为什么需求必须写成可验证契约。
开发看这个问题,会开始明白为什么真正值钱的不是多会写,而是多会留下验证面和接管面。
独立开发者看这个问题,会开始明白为什么一人公司真正的复利,不在模型本身,而在那套你能反复复跑的交付系统。

我之所以越来越相信这件事,不只是因为我看了多少文章,而是因为我在真实工程里一次次撞到同一个墙。
也是因为像 snake-mvp-public-rebuild 这类重建型思路,反复把我打醒:真正难的,从来不是首版写出来;真正难的是换一个人、换一个模型、换一台机器之后,你还能不能把它重新搭起来。

所以接下来真正值得下注的问题,已经不是“哪个模型更强”。
而是:

谁能先把自己的业务,压成一套可 Fulfill 的系统。

这才是我想留下的最后一句话:

真正的 AI 工程,不对代码负责,只对 Fulfillment 负责。