Agent Skills 设计的十个重要原则

加拿大pc开奖数据: 加拿大pc开奖数据介绍; 产品展示; 新闻动态

热点资讯: Agent Skills 设计的...; 1月21日市场消息早报（周三）...; 黄金增值税落地后，金店没人排队了...; “二次加热黑名单”来了！这几类食...; 沪深300指数持续进阶强化资源配...

新闻动态

你的位置：加拿大pc开奖数据 > 新闻动态 > Agent Skills 设计的十个重要原则

Agent Skills 设计的十个重要原则

发布日期：2026-05-03 05:24 点击次数：161

当人们发现AI系统能够显著提升效能——不是2倍，而是10倍甚至100倍——他们往往认为原因在于模型更智能：算法更好、参数更多、AI内部藏有某种秘诀。

事实并非如此。那些取得非凡成果的人，使用的是与其他人相同的模型。真正的区别在于他们如何封装这些模型——具体而言，是他们如何编写技能（skill）。

技能是一个可复用的文档，它教会AI如何完成某类任务。它不是针对单一具体情境的指令，而是针对整类任务的通用方法。可以把它想象成一份菜谱，而不是一份点单。“这里是如何调查举报人投诉的流程”，而不是“告诉我史密斯博士是否被封口了”。

同一个技能，在以不同输入调用时，可以让AI转变为医疗研究分析师、法医调查员或政策合规审计员。技能描述的是过程，调用则提供具体情境。

本文提炼了设计优秀技能的十条原则。这些不是小技巧或捷径，而是关于AI系统工作原理的结构性洞见——一旦理解这些洞见，这些做法就会显得理所当然。

原则1：技能是菜谱，不是点单

常见错误是把技能写成这样：

“分析客户反馈并总结关键主题。”

这不是什么技能，而是一种指令。它只适用于一种情况，用完就失效了，因为所有具体内容都被硬编码在内。

真正的技能应该是这样的：

正确示范：

定义一个"主题分析" Skill，包含参数（语料库、研究问题、深度级别）和流程步骤（通读→识别模式→命名主题→提取案例→评估重要性→撰写综合报告）。

关键区别：

一个设计良好的 Skill 可以处理数百种不同场景。构建一次，永久复用，只需更换输入参数。

原则2：教会思考，而不是预设结论

人们常忍不住在技能中直接告诉AI该得出什么结论：

“步骤4：得出结论，认为证据支持对患者安全的担忧。”

这违背了使用技能的初衷。你已经预先决定了结果，把AI变成了一个只会批准你结论的傀儡。即使你是对的，这个技能在证据指向不同方向时也毫无用处。

好的技能是教会AI如何思考，而不是告诉它该得出什么结论：

“步骤4：权衡支持和反对该假设的证据。考虑：时间线是否合理？是否存在其他解释？什么证据会让你改变看法？根据你发现的内容得出自己的结论。”

两者的区别至关重要。第一种版本取代了判断，第二种版本则调用了判断。AI必须真正对问题进行思考——这正是使用AI的核心意义。

检验标准：你能否用这个技能得出相反的结论？如果可以用“调查举报人”技能既调查“这个人是否被封口了”，也能调查“这个投诉是否毫无根据”，并根据证据得出恰当的不同答案，那么你写出的就是一个真正的技能。如果它无论证据如何都总是指向同一个方向，那你写的其实只是一个伪装成技能的提示词。

原则3：在判断与计算之间划清界限

AI系统中的每一步都属于以下两类之一，而混淆两者是设计中最常见的错误。

判断是智能所在之处：阅读文档并决定什么重要、权衡相互竞争的因素、识别两个看似不同情境实为同一模式、察觉某事不对劲却无法明确表述。这些正是AI模型真正擅长的。

计算是可靠性所在之处：相同输入总是产生相同输出。数据库查询、算术运算、列表排序、统计词数、检查日期是否在某个范围内。传统软件能完美完成这些；AI则做得不稳定。

直观理解：让AI为8个人安排晚宴座位，考虑谁和谁合得来、谁不该坐在一起。它会做得非常出色——权衡个性、感知社交动态、做出判断。

现在让它为800个人在相同约束下安排座位。它会生成一个看似座位表的输出，但会隐形违反约束。它会自信地把Alice安排在Bob旁边，尽管两人都在排除名单上。输出看起来合理，实则暗藏错误。

原因在于：安排8人属于判断问题——你能把所有人记在心里，通过直觉找到好的安排。安排800人则是一个优化问题——你需要算法，而非直觉。AI没有这个算法，于是它会虚构一个。

原则是：技能应明确编排这一边界。标明哪些步骤需要判断（让AI思考），哪些需要计算（调用工具）。不要让AI做算术。不要让计算器去做解释。

原则4：魔力在于阅读一切

AI能做到数据库查询无法做到的事：阅读关于某个人的五十份文档，发现它们之间的矛盾，追踪故事如何随时间变化，并写出一页纸的简介，准确捕捉这个人的真实面貌。

我们把这称为日记化（diarization）——将分散的信息综合成结构化智能。

举个例子。你正在组织一场会议，想了解申请参会的创始人。数据库知道他们的公司名称和行业。申请表上写着“AI基础设施”。但他们与顾问的一对一对话显示，他们最担心的是计费和成本归属。而他们的GitHub提交记录显示，最近80%的工作都在支付模块。

一个日记化技能会读取所有这些信息，并输出：

声称：“Datadog for AI agents”

实际构建：伪装成可观测性的FinOps工具

差距：定位与执行不符。要么正在转型，要么对自身定位不清。

没有任何关键词搜索能发现这一点。嵌入相似性也无法呈现它。AI必须阅读一切，将矛盾记在心里，并对真实情况做出判断。

原则是：构建能够阅读一切并进行综合的技能。不要预先过滤成“相关”文档——在阅读之前，你并不知道什么才是相关的。力量来自看到全貌后产生的综合洞见。

原则5：在正确时刻加载正确文档

我曾犯过一个错误：为我的AI助手写了20,000行指令。包括我遇到过的每一个怪癖、每一个教训、每一个模式。我以为更多指导会有帮助。

结果却适得其反。AI的注意力是有限的。让它淹没在海量信息中，反而会错过真正重要的内容。在20,000行指令中，当前任务的关键指导变得无影无踪。

解决办法是：只写200行。但这200行不是指令，而是指针。当你在做X时，加载文档Y。当你看到模式A时，查阅技能B。

这就是解析器（resolver）——一个在正确时刻加载正确上下文的路由系统。

原则是：不要到处加载一切。构建能够感知需求并精确加载所需内容的解析器。AI的注意力非常宝贵——把它用在当前任务真正需要的地方。

原则6：把智能推向上层，把执行推向底层

可以把你的AI系统想象成一个三层蛋糕。

顶层：技能。这些是充满过程、判断和智慧的丰富文档。它们用自然语言编写，因为那是AI的思考语言。这里集中了90%的价值。当你想改进系统时，只需编辑技能。

中层：外壳（Harness）。这一层很薄——可能只有200行代码。它负责循环运行AI、管理上下文、调用工具。仅此而已。没有业务逻辑。没有判断。只是管道。

底层：工具。这些是快速、简单的程序，每次只可靠地完成一件事。相同输入，相同输出，每次如此。

原则是：把智能推向上层的技能，把执行推向底层的工具。保持外壳轻薄。

为什么？当AI模型进步时，所有技能会自动变得更好。同时，工具始终保持完美可靠性，因为它们只是代码。

原则7：快速而专注优于缓慢而通用

人们常倾向于构建通用工具。这是一个陷阱。

通用工具速度慢、会膨胀上下文、还会隐藏复杂性。

原则是：构建快速、专注且“笨拙”的工具。每个工具只做一件事。它在半秒内完成这件事。它不进行解释或决策——只负责执行。

原则8：追求“还不错”——那里才是改进所在

当你的系统产生输出时，用户会有三种反应：极好、还不错、糟糕。

反直觉的洞见是：“还不错”的响应才是改进的机会所在。

“还不错”的响应意味着系统几乎成功了：机制正常运行，判断已应用，但仍有不足之处。这个“还不错”与“极好”之间的差距，正是技能可以改进的地方。

原则是：构建一个专注于“还不错”响应的学习循环。阅读AI的输出和用户的反馈，问：差距在哪里？然后修改技能来弥合它。

原则9：写一次，永远运行

有一条纪律，能区分10倍成果与普通成果：“你不允许做一次性工作。如果这件事有可能再次发生，你必须先手动完成几个例子，获得批准后，把它编码成一个技能。”

你编写的每一个技能，都是对系统的永久升级。当AI模型进步时，所有技能都会自动变得更好。

系统会像公司积累资产一样积累能力，但技能不会贬值，它们会产生复利。

原则10：相同流程，不同世界

同一个 /match 技能，在不同参数下可以实现会议分组讨论室、惊喜午餐、实时网络等完全不同的功能。

洞见在于：一个设计良好的技能是一个接受参数的方法。参数提供具体世界，技能提供过程。你只需设计一次技能，便可在尚未想象到的各种情境中永远调用它。

这就是把AI从新奇事物转变为力量倍增器的杠杆。一个技能，百种用例。

结论：编码化的纪律

那些取得100倍成果的人并非更聪明，也没有使用秘密模型。他们只是坚持不懈地把工作编码成技能，然后让这些技能大规模运行、随时间改进，并产生复利效应。

系统会产生复利。一次构建，永远运行。

写下菜谱。烹饪佳肴。分享菜谱。然后继续下一个。

这就是实践。

上一篇：1月21日市场消息早报（周三）

下一篇：没有了