可靠性是工程出来的,不是 prompt 出来的
它来自环绕模型的系统。契约钉住不变量,verifier 强制执行;模型则在护栏之内自由地出彩。
哪怕每个测试都绿,verifier 仍在高风险接缝上激发
哲学
它来自环绕模型的系统。契约钉住不变量,verifier 强制执行;模型则在护栏之内自由地出彩。
哪怕每个测试都绿,verifier 仍在高风险接缝上激发
由数据、测试、度量来定夺,不靠感觉。即便通过了 spec 的改动,在高风险接缝上仍要再挨一轮对抗式审视。
计划点名的每个标识符,落笔前都先核实存在 (R6)
不留“先这样”的捷径。一次规划到位,胜过十次打补丁。这套底座本就为复制到其它 agent-runtime 形态而设计。
整套底座是一张可迁移的 SQLite 文件,生来为复制到其它 runtime
Xihe 交付通用 harness:编排、记忆、技能、护栏。你的业务逻辑、你的品牌、你的密钥,都仍是你的。
通用内核零领域;你的逻辑与密钥留在注入的 pack 里
是品味之别
品味不是装饰,而是一组会复利的默认值——业界为求稳而做的选择,这里有意做得不一样。
规格驱动,证伪检验
寻常的交付写下 spec、照着实现、验收通过就发布。Xihe 加了后半程:spec 成为可证伪的契约,而通过它只是地板,不是天花板。
Contract
通过验收不代表正确。只有活过被尝试的证伪才算。
Falsifiable
契约是假设,不是圣旨。当实现暴露它错了,契约让路——而且改动留痕,绝不静默。一个真实实例,取其形:
多数站点用绿勾证明严谨。我们展示一处方法推翻了作者的地方。
转折点
一套绿测只证明代码匹配了 spec——而 spec 可能是错的。通过是地板,不是天花板。
高风险接缝交给专职反驳结果的怀疑者——哪怕每个测试都绿。
行为在意图层、从外部被验证,而不只在它写来对付的那个单元上。
绿是入场费,不是终点线。
Drift detection
当推理开始走神,检测器会给漂移分类,并把运行拉回到上一个良好锚点——没有静默的劣化。
没有静默劣化。被检测、被分类、被回正。
模式与认知模式
面对一个错别字和一个新子系统,agent 不该用同一种方式推理。Xihe 为每桩任务路由到一种认知模式;而无论用哪种模式,总有几条模式始终成立。
| 模式 | 何时 | 方法 | |
|---|---|---|---|
| M1 | 根因 | bug · 事故 | 五问 + 蓝军自检 + 横扫同类 |
| M2 | 第一性原理 | 干净新建 | 质疑 → 删除 → 简化 → 加速 → 自动化 |
| M3 | 做减法 | 重构 · 清理 | 删除优先;每一行都要挣得其位 |
| M4 | 搜索先行 | 根因未知 | 先搜先例,再下判断 |
| M5 | 反向工作法 | 架构 · 新模块 | 先写 PR / FAQ,再写代码 |
| M6 | 证据驱动 | 性能 · 质量 | 数据、测试、度量,胜过直觉 |
| M7 | 闭环 | 部署 · 运维 · 默认 | 定目标 → 追过程 → 拿结果 |
类型、校验、状态机与验收测试,在写码前钉住不变量。冲突的实现让路;被代码证伪的契约也让路,并留痕在案。
任何点名具体标识符(字段、表、RPC)的计划,落笔前必须先核实其存在。结构层 agent 测绘,事实层工具坐实。
动手前先定大小:单文件微调、有标杆的多文件改动,或值得整套规划加跨模型评审的跨层新建。
高风险接缝交给独立的怀疑者,专职反驳结果。通过 spec 还不够;活过对抗才算数。
投入匹配爆炸半径
agent 不该用同一种方式推理一个错别字和一个新子系统。动手前先定大小,触发的纪律随风险升降。
改个 CSS、一句注释、一行配置。做、验证、收工——不规划。
有标准可循的改动。auto-enhance、直接建、验证。
换来整套规划、一份可证伪契约,以及写码前的跨模型评审。
仪式是成本。花在爆炸半径真实的地方。
规划模式
普通 plan mode 能读、能推理但不能写,然后给你一份计划。Xihe 在其上嵌入一整座座舱:一场会记忆、会摄取、会自我对辩、并硬化成契约的审议——在写下任何一行代码之前。
我们内嵌了什么
座舱,按命令
shift+tab · /plan 开关座舱 /note <决策> 记进台账——每轮重注入 /grill 对抗式逼问 → 契约 + ADR delta /council [deep] N 视角 → 评审 → 嫁接合成 (best-of-N) /model 切换规划模型与思考档 /ref <url> 抓取+蒸馏链接进台账 (粘贴 URL 也自动摄取) /search <query> 元搜索更多来源,蒸馏进 context /crystallize 把审议存进跨 session 结晶库 (满则顺带 compact) /sdd 产出结构化 SDD + TDD 计划落 docs/plan /crystals 召回过往 session 的结论到这一场 先规划,后花费。座舱让计划成为活的产物,而不是一次性 prompt。
第二个模型,对抗式
另一个模型(Codex)评审工作——是 cross-lens,不是橡皮图章。它的 finding 是视角、不是 ground truth;品位可以覆盖它。轮数有上限,免得评审本身变成 slop。
过了第二轮,评审 ROI 断崖下跌。我们有意停手。
要收敛,不只是跑完
一遍很少就对。整张图跑一遍,judge 问"收敛了吗?",没有就把失败原因喂回去、conductor 重画——一轮接一轮,直到收敛或触到有界上限。
硬性轮数上限(默认 3)——要么收敛、要么干净停手,绝无死循环。
卡了一两轮?conductor 升级到更强的模型重画——不是同一个脑子硬刚。
fixpoint judge 是唯一的 verify 循环;executor 内部 verify 在这层被关掉,两层不嵌套、成本不翻倍。
一次通过是运气。收敛是循环的性质。
为设计而生的 token 效率
质量从不免费,但浪费是一种选择。harness 被刻意设计成让每个 token 都花在刀刃上:共享上下文只算一次、工具按需加载、推理以代码而非散文运行。
每片叶上下文 −92%。共享上下文只算一次并冻结,每片叶子继承它、而非重算——这正是 DeepSeek 256 路、MiMo 8 路付得起的原因。
工具 schema token 砍约 70%。所有工具收敛到单一路由;菜单常驻,schema 按需加载而非撑爆每次 prompt。机制本身在 Harness 页。
大结果 1 MB → 7 KB。把冗长推理变成代码:在脚本里算出答案、只返回结果,而不是整个文件。
背后的品位:为质量买单,绝不为浪费买单。
会学习的路由
我们不替你永久钦定"DeepSeek 干 coding"。对每类 leaf,一个 ε-greedy bandit 多数时候用当前最优模型、偶尔试别的、按 reward 更新——路由自己越跑越准,每个部署各学各的。
一片 leaf 的 reward = 它自身成功 × verifier 的裁决。守质量的那道检查,正好教路由"什么值这个钱"。
它 ship 的是机制,不是调好的策略。你的模型阵容和任务独一无二——bandit 从你自己的运行里学你的。
冷启动 = 今天的静态路由——day-1 行为,零回归。探索有界;选错被 verifier 抓住并升级。学到的表存进 SQLite,跨 session 复利。
把算力花在刀刃上——是学出来的,不是钦定的。
并发经济学
质量与成本通常此消彼长。冻结前缀加一支评审团,让 Xihe 用并发而非 token 来买质量——所以我们推崇便宜、快的模型铺开跑:用 DeepSeek v4-flash 并发产出对手方案,用 MiMo v2.5 接手多模态执行。一次尝试是抛硬币;十次尝试经评分嫁接,是"最优者必然胜出"的保证。
每次尝试按成本、质量、延迟评分。赢家被嫁接进主树,其余丢弃。没有盲目的运气。
当改动触及万物所依的代码,你要的不是第一个看着过得去的 diff,而是那个熬过四个对手的。
一个有十种合理形态、却没有明显赢家的问题。并行生成这些形态,让评审团把它们辩到只剩一个。
单次是抛硬币,N 次会收敛。尝试之间的离散度本身就是信号——它在说 spec 还需打磨。
任何此刻犯错很便宜、到了生产环境才发现就毁灭性的东西。在这里付一点并发,就再不必付那场事故。