C
ChaoBro

SRA 框架开源:用 26,000+ 技能让 AI Agent 学会"自我检索"

SRA 框架开源:用 26,000+ 技能让 AI Agent 学会"自我检索"

核心结论

4 月 28 日,研究团队开源了 Skill Retrieval Augmentation(SRA) 框架及配套的 SRA-Bench 基准测试。这是一个专门解决”Agent 面对新任务时不知道该用什么技能”问题的技术方案。

SRA 的核心贡献在于构建了一个包含 26,262 个技能、636 个黄金技能、5,400 个测试任务 的大规模基准,并证明通过高效的技能检索增强,Agent 在新任务上的成功率可以显著提升。

这不是又一个 Agent 框架——它是Agent 框架的”搜索引擎”

痛点:Agent 的技能膨胀与检索失效

现有 Agent 框架(包括 Claude 的 Skills、OpenClaw 的 MyClaw、Hermes 的 Curator)都解决了一个问题:技能太多,Agent 不知道用哪个

典型场景:

  • 你的 Agent 技能库里有 300+ 个技能文件
  • 用户说”帮我分析这份财报”
  • Agent 需要决定:是用”数据提取”技能、“财务分析”技能、还是”图表生成”技能?
  • 当前方案大多是简单的关键词匹配或 prompt 列举——技能超过 50 个后效果急剧下降

SRA 把这个过程形式化为一个检索增强生成(RAG)问题,但检索对象不是文档,而是技能。

SRA 的技术方案

架构概览

用户请求 → SRA 编码器 → 技能索引检索 → Top-K 技能 → Agent 执行
组件作用类比
SRA 编码器将用户请求编码为技能空间的向量翻译器——把自然语言翻译成”技能需求”
技能索引26,262 个技能的向量化存储图书馆的卡片目录
检索器从索引中找出最相关的 Top-K 技能图书管理员
增强器将检索到的技能注入 Agent 的上下文把找到的书递给读者

SRA-Bench 基准

指标数值
总技能数26,262
黄金技能数636
测试任务数5,400
技能来源社区贡献 + 自动合成
评估维度检索准确率、任务完成率、推理延迟

与现有方案的对比

方案检索方式技能规模上限检索延迟
Prompt 列举全文匹配~50 个随技能数线性增长
Claude Skills文件名匹配 + LLM 排序~200 个中等
OpenClaw MyClaw偏好设置预筛选~13,700 个(但需要手动分类)
SRA向量检索 + 语义匹配26,000+毫秒级

为什么重要

1. Agent 框架的”基础设施层”

SRA 不是要替代 Claude Skills 或 OpenClaw——它是可以嵌入任何 Agent 框架的检索层。就像向量数据库之于 RAG 应用,SRA 之于 Agent 框架。

2. 规模效应

26,000+ 技能的基准意味着 SRA 在大规模技能库场景下经过了验证。OpenClaw 的 13,700+ SKills 库如果接入 SRA 的检索能力,用户找技能的效率会有质的提升。

3. 开源社区效应

SRA-Bench 的开放性意味着任何团队都可以提交新技能、新任务来扩展基准。这可能导致 SRA 成为 Agent 技能检索的事实标准——类似于 GLUE 之于 NLP 模型评测。

可以怎么用

快速上手

如果你正在构建自己的 Agent 系统:

  1. 克隆 SRA 仓库,加载预训练的技能编码器
  2. 将你现有的技能文件(无论是 Claude Skills、OpenClaw Skills 还是自定义格式)批量编码为向量
  3. 接入 FAISS 或 Milvus 等向量数据库
  4. 在 Agent 的规划层之前插入 SRA 检索步骤

与现有框架集成

  • Claude Code: 在 .claude/ 技能目录前加一层 SRA 检索
  • OpenClaw: 替换 MyClaw 的偏好预筛选为 SRA 语义检索
  • Hermes Agent: 在 Curator 自动治理的基础上,用 SRA 做运行时检索

局限与未解问题

  • SRA 目前主要针对离散技能(函数/脚本级别),对于连续技能(如多步骤工作流的组合)检索效果待验证
  • 基准中的 636 个黄金技能来自人工标注,在更开放的社区贡献场景下,技能质量参差不齐可能影响检索效果
  • 编码器的训练数据覆盖了主流任务类型,但垂直行业(医疗、法律、金融)的技能覆盖度可能不足

主要来源: