哲学

模型是杠杆。harness 是支点。品味,是区分度。

可靠性是工程出来的,不是 prompt 出来的

它来自环绕模型的系统。契约钉住不变量,verifier 强制执行;模型则在护栏之内自由地出彩。

哪怕每个测试都绿,verifier 仍在高风险接缝上激发

证据高于直觉

由数据、测试、度量来定夺,不靠感觉。即便通过了 spec 的改动,在高风险接缝上仍要再挨一轮对抗式审视。

计划点名的每个标识符,落笔前都先核实存在 (R6)

为半年后的今天而造

不留“先这样”的捷径。一次规划到位,胜过十次打补丁。这套底座本就为复制到其它 agent-runtime 形态而设计。

整套底座是一张可迁移的 SQLite 文件,生来为复制到其它 runtime

底座开源,品味归你

Xihe 交付通用 harness:编排、记忆、技能、护栏。你的业务逻辑、你的品牌、你的密钥,都仍是你的。

通用内核零领域;你的逻辑与密钥留在注入的 pack 里

是品味之别

相同的模型,不同的结果

品味不是装饰,而是一组会复利的默认值——业界为求稳而做的选择,这里有意做得不一样。

Xihe
独一无二 > 大众主流
业界
主流 > 独特
共识为平庸而优化。
Xihe
第一性原理 > 取巧
业界
取巧 > 原理
取巧会腐烂。原理会复利——按需加载把冻结的 33k token prompt 砍了约 47%。
Xihe
北欧式克制 > 冗繁
业界
啰嗦显得“安全”
少,不是缺失,而是决定。
Xihe
为质量买单 > 偷工减料
业界
不惜代价省算力
质量从不免费——best-of-N 用并发买它,每片叶上下文 −92%。

规格驱动,证伪检验

方法论,把架构与偶然分开

寻常的交付写下 spec、照着实现、验收通过就发布。Xihe 加了后半程:spec 成为可证伪的契约,而通过它只是地板,不是天花板。

寻常 SDD
  1. Spec
  2. 编码
  3. 部署
  4. 验收
Xihe · SDD + TDD
  1. Spec + 契约
  2. 实现
  3. 对抗式证伪
  4. Outside-in 验收
  5. 通过 ≠ 正确

Contract

一份契约,四个部件

i
Types
ii
Validation
iii
State machine
iv
Given-When-Then

通过验收不代表正确。只有活过被尝试的证伪才算。

Falsifiable

当代码证伪了契约

契约是假设,不是圣旨。当实现暴露它错了,契约让路——而且改动留痕,绝不静默。一个真实实例,取其形:

契约原写 每次写入都脱敏密钥——把闸装在 validateFactWrite 里
代码暴露 它把用户显式的"remember"也拦了——用户主权被否决
契约让路 密钥脱敏改为只对自动学习路径 opt-in;显式 remember 绕过它——留痕在案

多数站点用绿勾证明严谨。我们展示一处方法推翻了作者的地方。

转折点

通过,不等于正确

一套绿测只证明代码匹配了 spec——而 spec 可能是错的。通过是地板,不是天花板。

对抗式证伪

高风险接缝交给专职反驳结果的怀疑者——哪怕每个测试都绿。

Outside-in 验收

行为在意图层、从外部被验证,而不只在它写来对付的那个单元上。

绿是入场费,不是终点线。

Drift detection

漂移检测与回正

当推理开始走神,检测器会给漂移分类,并把运行拉回到上一个良好锚点——没有静默的劣化。

A
真漂移——方向错了
B
合理化——借口在成形
C
范围蔓延——任务在膨胀
D
过早求解——跳过了诊断
E
断线——上下文丢了

没有静默劣化。被检测、被分类、被回正。

模式与认知模式

把 harness 的思考方式摊开讲明

面对一个错别字和一个新子系统,agent 不该用同一种方式推理。Xihe 为每桩任务路由到一种认知模式;而无论用哪种模式,总有几条模式始终成立。

模式 何时 方法
M1 根因 bug · 事故 五问 + 蓝军自检 + 横扫同类
M2 第一性原理 干净新建 质疑 → 删除 → 简化 → 加速 → 自动化
M3 做减法 重构 · 清理 删除优先;每一行都要挣得其位
M4 搜索先行 根因未知 先搜先例,再下判断
M5 反向工作法 架构 · 新模块 先写 PR / FAQ,再写代码
M6 证据驱动 性能 · 质量 数据、测试、度量,胜过直觉
M7 闭环 部署 · 运维 · 默认 定目标 → 追过程 → 拿结果

契约先行

类型、校验、状态机与验收测试,在写码前钉住不变量。冲突的实现让路;被代码证伪的契约也让路,并留痕在案。

证据路由

任何点名具体标识符(字段、表、RPC)的计划,落笔前必须先核实其存在。结构层 agent 测绘,事实层工具坐实。

复杂度路由

动手前先定大小:单文件微调、有标杆的多文件改动,或值得整套规划加跨模型评审的跨层新建。

对抗式校验

高风险接缝交给独立的怀疑者,专职反驳结果。通过 spec 还不够;活过对抗才算数。

投入匹配爆炸半径

不是每个任务都配同样的仪式

agent 不该用同一种方式推理一个错别字和一个新子系统。动手前先定大小,触发的纪律随风险升降。

Vibe
单文件

改个 CSS、一句注释、一行配置。做、验证、收工——不规划。

Lite
2–5 文件,有标杆

有标准可循的改动。auto-enhance、直接建、验证。

Full
跨层 · 新模块 · 安全

换来整套规划、一份可证伪契约,以及写码前的跨模型评审。

仪式是成本。花在爆炸半径真实的地方。

规划模式

一个只读的审议座舱

普通 plan mode 能读、能推理但不能写,然后给你一份计划。Xihe 在其上嵌入一整座座舱:一场会记忆、会摄取、会自我对辩、并硬化成契约的审议——在写下任何一行代码之前。

我们内嵌了什么

普通 plan mode
  • 能读能推理、不能写
  • 产出一份计划
  • 你批准,然后它开建
Xihe plan mode
  • 一本常驻台账——每条决策每轮重注入,计划不会遗忘也不漂移
  • 只读闸 + 文档放行——src 锁死,但计划与 SDD 仍可写
  • 自动知识摄取——粘贴一个 URL,自动抓取、蒸馏、折进来,无需命令
  • context 阶段感知——盯着窗口多满,在溢出前先收割

座舱,按命令

进入
shift+tab · /plan 开关座舱
审议
/note <决策> 记进台账——每轮重注入
/grill 对抗式逼问 → 契约 + ADR delta
/council [deep] N 视角 → 评审 → 嫁接合成 (best-of-N)
/model 切换规划模型与思考档
摄取
/ref <url> 抓取+蒸馏链接进台账 (粘贴 URL 也自动摄取)
/search <query> 元搜索更多来源,蒸馏进 context
收割
/crystallize 把审议存进跨 session 结晶库 (满则顺带 compact)
/sdd 产出结构化 SDD + TDD 计划落 docs/plan
/crystals 召回过往 session 的结论到这一场

先规划,后花费。座舱让计划成为活的产物,而不是一次性 prompt。

第二个模型,对抗式

跨模型评审,且有界计时

另一个模型(Codex)评审工作——是 cross-lens,不是橡皮图章。它的 finding 是视角、不是 ground truth;品位可以覆盖它。轮数有上限,免得评审本身变成 slop。

G1 Plan 一轮,phase 开始前
G2 Phase 每个 phase 末一轮
G3 Release 一轮 + 至多一次修复 cycle
认真对待
  • 可复现 P0/P1 bug,带 file:line
  • 具体的契约违反
  • 真实的机制级 ship-blocker
拒为 slop
  • niche / 理论性 / "规模化才有用"
  • 遥测、仪表盘、coverage-of-coverage
  • 风格偏好 · 无复现的假设性竞态

过了第二轮,评审 ROI 断崖下跌。我们有意停手。

要收敛,不只是跑完

迭代到不动点

一遍很少就对。整张图跑一遍,judge 问"收敛了吗?",没有就把失败原因喂回去、conductor 重画——一轮接一轮,直到收敛或触到有界上限。

01 跑整张 DAG
02 judge:收敛没?
03 失败原因喂回
04 conductor 重画
↻ until fixpoint

有界,绝不失控

硬性轮数上限(默认 3)——要么收敛、要么干净停手,绝无死循环。

会换更强的脑子

卡了一两轮?conductor 升级到更强的模型重画——不是同一个脑子硬刚。

只一个循环,不嵌套

fixpoint judge 是唯一的 verify 循环;executor 内部 verify 在这层被关掉,两层不嵌套、成本不翻倍。

一次通过是运气。收敛是循环的性质。

为设计而生的 token 效率

上下文即现金——所以我们只花一次

质量从不免费,但浪费是一种选择。harness 被刻意设计成让每个 token 都花在刀刃上:共享上下文只算一次、工具按需加载、推理以代码而非散文运行。

01 冻结前缀缓存

每片叶上下文 −92%。共享上下文只算一次并冻结,每片叶子继承它、而非重算——这正是 DeepSeek 256 路、MiMo 8 路付得起的原因。

上下文的税,只交一次。
02 MCP 网关

工具 schema token 砍约 70%。所有工具收敛到单一路由;菜单常驻,schema 按需加载而非撑爆每次 prompt。机制本身在 Harness 页。

一纸契约,统御众工具。
03 Code mode

大结果 1 MB → 7 KB。把冗长推理变成代码:在脚本里算出答案、只返回结果,而不是整个文件。

用代码思考,不用段落。

背后的品位:为质量买单,绝不为浪费买单。

会学习的路由

它学出该信哪个模型

我们不替你永久钦定"DeepSeek 干 coding"。对每类 leaf,一个 ε-greedy bandit 多数时候用当前最优模型、偶尔试别的、按 reward 更新——路由自己越跑越准,每个部署各学各的。

exploit · best so far ε explore · try another reward · verifier verdict
α

reward = verifier

一片 leaf 的 reward = 它自身成功 × verifier 的裁决。守质量的那道检查,正好教路由"什么值这个钱"。

β

自演化,非预设

它 ship 的是机制,不是调好的策略。你的模型阵容和任务独一无二——bandit 从你自己的运行里学你的。

γ

生来安全

冷启动 = 今天的静态路由——day-1 行为,零回归。探索有界;选错被 verifier 抓住并升级。学到的表存进 SQLite,跨 session 复利。

把算力花在刀刃上——是学出来的,不是钦定的。

并发经济学

N 次尝试,一个赢家——账单却很小

质量与成本通常此消彼长。冻结前缀加一支评审团,让 Xihe 用并发而非 token 来买质量——所以我们推崇便宜、快的模型铺开跑:用 DeepSeek v4-flash 并发产出对手方案,用 MiMo v2.5 接手多模态执行。一次尝试是抛硬币;十次尝试经评分嫁接,是"最优者必然胜出"的保证。

N 次尝试 评审团 judge panel 嫁接的叶子 grafted leaf

每次尝试按成本、质量、延迟评分。赢家被嫁接进主树,其余丢弃。没有盲目的运气。

把它对准那些"一次猜错就要命"的活

承重式重构

当改动触及万物所依的代码,你要的不是第一个看着过得去的 diff,而是那个熬过四个对手的。

开放式设计抉择

一个有十种合理形态、却没有明显赢家的问题。并行生成这些形态,让评审团把它们辩到只剩一个。

模糊或欠定的 spec

单次是抛硬币,N 次会收敛。尝试之间的离散度本身就是信号——它在说 spec 还需打磨。

代价后置的错误

任何此刻犯错很便宜、到了生产环境才发现就毁灭性的东西。在这里付一点并发,就再不必付那场事故。

token 都花在哪

标准的逐叶上下文 100%
Xihe 冻结前缀 8%
−92%
共享上下文,只算一次,被每片叶子继承