Harness Engineering 构建AI可控运行环境 - 世爵娱乐在线客服

Harness Engineering 构建AI可控运行环境

88 | 2026-05-04 20:52

Harness Engineering 构建AI可控运行环境。过去一个月，拓尔思内部密集举办了五场以AI为主题的工程技术分享，包括OpenClaw、Claude Code、“效率革命”、“金析为证”和Palantir。在技术快速迭代的当下，高频次的知识对齐已成为构建敏捷型学习组织、缩短从认知到工程落地之间距离的必要策略。

Harness Engineering

第六场内部技术沙龙聚焦于Harness Engineering，其核心是为AI Agent构建一套完整的运行环境、约束规则与反馈闭环，使AI能够可靠、自主地完成复杂工作。

Harness Engineering 构建AI可控运行环境

拓尔思副总裁曹辉讨论了CLI（命令行界面）在AI时代重新受到关注的原因。他指出，在ToB业务场景下，企业无法依赖大厂的云端工具，CLI能够完美适配本地执行的需求。当前的CLI是一种“外壳为LUI，内核为CLI”的最优工程混合体，LUI意图层采用自然语言交互，用户只需表达“做什么”，CLI执行层则通过调用本地命令、操控浏览器、读写文件系统等方式完成具体操作。这一设计的目标是“剥离中间层，直接触达万物”。曹辉以MCP为例说明：MCP旨在让AI触达各类系统，但落地时受限于厂商是否开放API。而CLI模式，特别是通过控制浏览器，Agent可以模拟人类操作任何B/S架构的业务系统，不依赖厂商配合。

Harness Engineering 构建AI可控运行环境

曹辉分享了一个实际案例：通过Codex的APP版本，指令一个AI Agent从GitHub下载OpenCLI项目并进行全面分析。该Agent自主完成了拉取代码、解决依赖、构建沙箱环境等任务，在遇到本地缺失工具或需要决策时主动向用户请示，最终生成了一份多维度研究报告。整个过程几乎不需要人工干预。对企业来说，这意味着端侧执行是成本与效率的必然选择。他提出了“云端慢思考，端侧快执行”的架构：云端负责复杂推理和大规模知识检索，端侧负责轻量级执行、本地资源调度和实时响应。

Harness Engineering 构建AI可控运行环境

曹辉认为Harness Engineering比模型本身更值得关注。大模型能力正逐渐趋同，未来的技术壁垒正在从模型本身转向Harness Engineering。他总结了若干设计原则：状态落盘而非驻留内存、生成与评估分离、机械强制优于文本规劝、Auto-Dream机制、多智能体协同等。核心思想是把不可控的大模型装进可控的工程框架里。

Harness Engineering 构建AI可控运行环境

北京研发中心的同事引用了LangChain的定义：Agent = Model + Harness。Harness是模型之外的一切代码、配置与执行逻辑，相当于一个运行时系统，将模型的原始能力转化为稳定、可控、可用的工作引擎。他拆解了Harness的几个核心组件：工具集成、上下文工程、状态持久化、子代理编排、安全防护、可观测性。每一块都不算新，但组合成一个系统才是难点。他提到了几个行业案例的细节：Anthropic通过三阶段架构与评估智能体解决了上下文割裂和模型“自我感觉良好”的问题；OpenAI的“动态地图”实现了百万行代码的自动化生产；LangChain构建了验证闭环、设置主动退出机制与算力分级，大幅提升模型性能。另一个设计叫做“推理算力三明治”：在任务规划和最终验收阶段使用最高等级的推理能力；中间执行阶段使用低等级推理甚至不进行推理。这样既节省Token，又不影响效果。

Harness Engineering 构建AI可控运行环境

成都研发中心的同事分享了一个实打实的落地案例。他们团队面对的问题是数据中台平台里Sonar检测出大量代码问题，涵盖不同优先级。同时，测试覆盖率和代码重复率都未达到标准。这些问题让人专门去修，成本高且枯燥，于是他们尝试用AI实现全自动闭环修复。团队借鉴了Cursor等产品的Master-Worker架构，搭建了一套自动化Bug修复系统。每个Worker的工作流程是：拉代码 → 分析Sonar issue → 执行修改 → 跑测试 → 提交代码。整个系统与GitLab代码仓库打通，并配有监控面板，可以实时查看任务进度和成功率。实践中发现，在有强验证机制的前提下，小模型也能胜任复杂任务。对比测试显示：加上Claude Code工程框架后，修复成功率从26.3%提升到40.4%——这部分提升完全来自工程能力。截至分享时，这个系统已经处理了300多个issue，修复准确率约80%。

数字经济研究院同事把Agent落地中遇到的常见问题归纳为失忆、流程失控、作恶/欺骗三类。对应这三类问题，他提出了三层解法：上下文与记忆管理、流程与编排控制、验证与护栏。他介绍了数研院的两个产品实践：SurgeFlow和SurgePix。他认为，CLI的核心优势不是“命令行”本身，而是可组合性——Agent可以把多个原子命令像搭积木一样组合成新功能，而API很难做到这一点。

成都研发中心的另一位同事带来了拓尔思技能库建设中的一线经验。团队从实际问题出发，逐步总结出六条核心原则：避免AI自我评估、限制重试次数、使用Checklist管理状态、不默认AI已知任何未明确告知的信息、确保每一步可观测、以上条件满足后，AI才能一次输出可用的Skill。

六位同事的接力分享，从不同角度指向同一个结论：大模型的能力正在趋同，真正的护城河正在向Harness Engineering转移。分享尾声，曹辉向内部团队提出了明确的技术演进要求：拓尔思的智能底座必须加速完成Harness能力的工程化封装，让前线业务能感知到工程约束带来的稳定性跃迁。这条路没有捷径，但每一步的积累都会沉淀为组织真正可控的生产力。对于拓尔思而言，这正是将“驾驭工程”写入技术基因的起点。