evaluating-code-models

Evaluates code generation models across HumanEval, MBPP, MultiPL-E, and 15+ benchmarks with pass@k metrics. Use when benchmarking code models, comparing coding abilities, testing multi-language support, or measuring code generation quality. Industry standard from BigCode Project used by HuggingFace leaderboards.

#eval#coding#machine-learning#huggingface#bigcode

Quick Install

>_npx skills add davila7/claude-code-templates

Documentation

Loading documentation...

Author

davila7

@davila7

View on GitHub

Repository

Repositorydavila7/claude-code-templates

Stars22,267

Last UpdatedMar 7, 2026

Related Skills

271,400

6,331

find-skills

Helps users discover and install agent skills based on their queries.

vercel-labs/skills

46,800

19,561

agent-browser

A CLI tool for AI agents to automate browser tasks like navigation, form filling, and data scraping.

vercel-labs/agent-browser

34,600

79,803

browser-use

Automates browser interactions for web testing, form filling, screenshots, and data extraction.

browser-use/browser-use

32,600

86,065

skill-creator

A guide for creating effective AI skills that extend Claude's capabilities with specialized knowledge, workflows, or tool integrations.

anthropics/skills

24,400

55,506

brainstorming

A skill for brainstorming and exploring user intent before implementing creative work.

obra/superpowers