llm-evaluation

使用自动化指标、人类反馈和基准测试为 LLM 应用实施全面的评估策略。用于测试 LLM 性能、衡量 AI 应用质量或建立评估框架时使用。

#eval#testing#llm#ai-applications

快速安装

>_npx skills add wshobson/agents

技术文档

正在加载文档...

作者

wshobson

@wshobson

仓库

仓库wshobson/agents

Star30,440

最后更新2026年2月21日

帮助用户根据查询发现和安装代理技能。

vercel-labs/skills

46,800

19,561

AI代理浏览器自动化CLI工具。

vercel-labs/agent-browser

34,600

79,803

自动化浏览器交互，用于网页测试、表单填写、截图和数据提取。

browser-use/browser-use

32,600

86,065

创建有效AI技能的指南，扩展Claude的能力。

anthropics/skills

24,400

55,506

用于在创意工作前探索用户意图和需求的头脑风暴技能。

obra/superpowers