evaluating-llms-harness

在60多个学术基准（MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）上评估LLM。适用于基准测试模型质量、比较模型、报告学术结果或跟踪训练进度。被EleutherAI、HuggingFace和主要实验室使用的行业标准。支持HuggingFace、vLLM、API。

#eval#benchmarking#llm-optimization#huggingface#vllm

快速安装

>_npx skills add davila7/claude-code-templates

技术文档

正在加载文档...

作者

davila7

@davila7

在 GitHub 查看

仓库

仓库davila7/claude-code-templates

Star22,267

最后更新2026年3月7日

find-skills

帮助用户根据查询发现和安装代理技能。

vercel-labs/skills

46,800

19,561

agent-browser

AI代理浏览器自动化CLI工具。

vercel-labs/agent-browser

34,600

79,803

browser-use

自动化浏览器交互，用于网页测试、表单填写、截图和数据提取。

browser-use/browser-use

32,600

86,065

skill-creator

创建有效AI技能的指南，扩展Claude的能力。

anthropics/skills

24,400

55,506

brainstorming

用于在创意工作前探索用户意图和需求的头脑风暴技能。

obra/superpowers