当人们发现AI系统能够显著提升效能——不是2倍,而是10倍甚至100倍——他们往往认为原因在于模型更智能:算法更好、参数更多、AI内部藏有某种秘诀。
事实并非如此。那些取得非凡成果的人,使用的是与其他人相同的模型。真正的区别在于他们如何封装这些模型——具体而言,是他们如何编写技能(skill)。

技能是一个可复用的文档,它教会AI如何完成某类任务。它不是针对单一具体情境的指令,而是针对整类任务的通用方法。可以把它想象成一份菜谱,而不是一份点单。“这里是如何调查举报人投诉的流程”,而不是“告诉我史密斯博士是否被封口了”。
同一个技能,在以不同输入调用时,可以让AI转变为医疗研究分析师、法医调查员或政策合规审计员。技能描述的是过程,调用则提供具体情境。
本文提炼了设计优秀技能的十条原则。这些不是小技巧或捷径,而是关于AI系统工作原理的结构性洞见——一旦理解这些洞见,这些做法就会显得理所当然。
原则1:技能是菜谱,不是点单
常见错误是把技能写成这样:
“分析客户反馈并总结关键主题。”
这不是什么技能,而是一种指令。它只适用于一种情况,用完就失效了,因为所有具体内容都被硬编码在内。
真正的技能应该是这样的:
正确示范:
定义一个"主题分析" Skill,包含参数(语料库、研究问题、深度级别)和流程步骤(通读→识别模式→命名主题→提取案例→评估重要性→撰写综合报告)。
关键区别:
一个设计良好的 Skill 可以处理数百种不同场景。构建一次,永久复用,只需更换输入参数。
原则2:教会思考,而不是预设结论
人们常忍不住在技能中直接告诉AI该得出什么结论:
“步骤4:得出结论,认为证据支持对患者安全的担忧。”
这违背了使用技能的初衷。你已经预先决定了结果,把AI变成了一个只会批准你结论的傀儡。即使你是对的,这个技能在证据指向不同方向时也毫无用处。
好的技能是教会AI如何思考,而不是告诉它该得出什么结论:
“步骤4:权衡支持和反对该假设的证据。考虑:时间线是否合理?是否存在其他解释?什么证据会让你改变看法?根据你发现的内容得出自己的结论。”
两者的区别至关重要。第一种版本取代了判断,第二种版本则调用了判断。AI必须真正对问题进行思考——这正是使用AI的核心意义。
检验标准:你能否用这个技能得出相反的结论?如果可以用“调查举报人”技能既调查“这个人是否被封口了”,也能调查“这个投诉是否毫无根据”,并根据证据得出恰当的不同答案,那么你写出的就是一个真正的技能。如果它无论证据如何都总是指向同一个方向,那你写的其实只是一个伪装成技能的提示词。
原则3:在判断与计算之间划清界限
AI系统中的每一步都属于以下两类之一,而混淆两者是设计中最常见的错误。
判断是智能所在之处:阅读文档并决定什么重要、权衡相互竞争的因素、识别两个看似不同情境实为同一模式、察觉某事不对劲却无法明确表述。这些正是AI模型真正擅长的。
计算是可靠性所在之处:相同输入总是产生相同输出。数据库查询、算术运算、列表排序、统计词数、检查日期是否在某个范围内。传统软件能完美完成这些;AI则做得不稳定。
直观理解:让AI为8个人安排晚宴座位,考虑谁和谁合得来、谁不该坐在一起。它会做得非常出色——权衡个性、感知社交动态、做出判断。
现在让它为800个人在相同约束下安排座位。它会生成一个看似座位表的输出,但会隐形违反约束。它会自信地把Alice安排在Bob旁边,尽管两人都在排除名单上。输出看起来合理,实则暗藏错误。
原因在于:安排8人属于判断问题——你能把所有人记在心里,通过直觉找到好的安排。安排800人则是一个优化问题——你需要算法,而非直觉。AI没有这个算法,于是它会虚构一个。
原则是:技能应明确编排这一边界。标明哪些步骤需要判断(让AI思考),哪些需要计算(调用工具)。不要让AI做算术。不要让计算器去做解释。
原则4:魔力在于阅读一切

AI能做到数据库查询无法做到的事:阅读关于某个人的五十份文档,发现它们之间的矛盾,追踪故事如何随时间变化,并写出一页纸的简介,准确捕捉这个人的真实面貌。
我们把这称为日记化(diarization)——将分散的信息综合成结构化智能。
举个例子。你正在组织一场会议,想了解申请参会的创始人。数据库知道他们的公司名称和行业。申请表上写着“AI基础设施”。但他们与顾问的一对一对话显示,他们最担心的是计费和成本归属。而他们的GitHub提交记录显示,最近80%的工作都在支付模块。
一个日记化技能会读取所有这些信息,并输出:
声称:“Datadog for AI agents”
实际构建:伪装成可观测性的FinOps工具
差距:定位与执行不符。要么正在转型,要么对自身定位不清。
没有任何关键词搜索能发现这一点。嵌入相似性也无法呈现它。AI必须阅读一切,将矛盾记在心里,并对真实情况做出判断。
原则是:构建能够阅读一切并进行综合的技能。不要预先过滤成“相关”文档——在阅读之前,你并不知道什么才是相关的。力量来自看到全貌后产生的综合洞见。
原则5:在正确时刻加载正确文档
我曾犯过一个错误:为我的AI助手写了20,000行指令。包括我遇到过的每一个怪癖、每一个教训、每一个模式。我以为更多指导会有帮助。
结果却适得其反。AI的注意力是有限的。让它淹没在海量信息中,反而会错过真正重要的内容。在20,000行指令中,当前任务的关键指导变得无影无踪。
解决办法是:只写200行。但这200行不是指令,而是指针。当你在做X时,加载文档Y。当你看到模式A时,查阅技能B。
这就是解析器(resolver)——一个在正确时刻加载正确上下文的路由系统。
原则是:不要到处加载一切。构建能够感知需求并精确加载所需内容的解析器。AI的注意力非常宝贵——把它用在当前任务真正需要的地方。
原则6:把智能推向上层,把执行推向底层

可以把你的AI系统想象成一个三层蛋糕。
顶层:技能。这些是充满过程、判断和智慧的丰富文档。它们用自然语言编写,因为那是AI的思考语言。这里集中了90%的价值。当你想改进系统时,只需编辑技能。
中层:外壳(Harness)。这一层很薄——可能只有200行代码。它负责循环运行AI、管理上下文、调用工具。仅此而已。没有业务逻辑。没有判断。只是管道。
底层:工具。这些是快速、简单的程序,每次只可靠地完成一件事。相同输入,相同输出,每次如此。
原则是:把智能推向上层的技能,把执行推向底层的工具。保持外壳轻薄。
为什么?当AI模型进步时,所有技能会自动变得更好。同时,工具始终保持完美可靠性,因为它们只是代码。
原则7:快速而专注优于缓慢而通用
人们常倾向于构建通用工具。这是一个陷阱。
通用工具速度慢、会膨胀上下文、还会隐藏复杂性。
原则是:构建快速、专注且“笨拙”的工具。每个工具只做一件事。它在半秒内完成这件事。它不进行解释或决策——只负责执行。
原则8:追求“还不错”——那里才是改进所在
当你的系统产生输出时,用户会有三种反应:极好、还不错、糟糕。
反直觉的洞见是:“还不错”的响应才是改进的机会所在。
“还不错”的响应意味着系统几乎成功了:机制正常运行,判断已应用,但仍有不足之处。这个“还不错”与“极好”之间的差距,正是技能可以改进的地方。
原则是:构建一个专注于“还不错”响应的学习循环。阅读AI的输出和用户的反馈,问:差距在哪里?然后修改技能来弥合它。
原则9:写一次,永远运行
有一条纪律,能区分10倍成果与普通成果:“你不允许做一次性工作。如果这件事有可能再次发生,你必须先手动完成几个例子,获得批准后,把它编码成一个技能。”
你编写的每一个技能,都是对系统的永久升级。当AI模型进步时,所有技能都会自动变得更好。
系统会像公司积累资产一样积累能力,但技能不会贬值,它们会产生复利。
原则10:相同流程,不同世界
同一个 /match 技能,在不同参数下可以实现会议分组讨论室、惊喜午餐、实时网络等完全不同的功能。
洞见在于:一个设计良好的技能是一个接受参数的方法。参数提供具体世界,技能提供过程。你只需设计一次技能,便可在尚未想象到的各种情境中永远调用它。
这就是把AI从新奇事物转变为力量倍增器的杠杆。一个技能,百种用例。
结论:编码化的纪律
那些取得100倍成果的人并非更聪明,也没有使用秘密模型。他们只是坚持不懈地把工作编码成技能,然后让这些技能大规模运行、随时间改进,并产生复利效应。
系统会产生复利。一次构建,永远运行。
写下菜谱。烹饪佳肴。分享菜谱。然后继续下一个。
这就是实践。